論文の概要: Wave Network: An Ultra-Small Language Model
- arxiv url: http://arxiv.org/abs/2411.02674v1
- Date: Mon, 04 Nov 2024 23:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:01:36.220488
- Title: Wave Network: An Ultra-Small Language Model
- Title(参考訳): Wave Network:ウルトラスモール言語モデル
- Authors: Xin Zhang, Victor S. Sheng,
- Abstract要約: 本稿では,新しい超小言語モデルであるWave Networkにおいて,革新的なトークン表現と更新手法を提案する。
入力テキストのグローバルなセマンティクスとローカルなセマンティクスの両方を符号化し、各トークンを表現するためにtextbfcomplex ベクトルを使用する。
AG Newsテキスト分類タスクの実験では、ランダムなトークン埋め込みから複雑なベクトルを生成する場合、波動干渉で90.91%、波動変調で91.66%の精度が得られる。
- 参考スコア(独自算出の注目度): 26.656105779121308
- License:
- Abstract: We propose an innovative token representation and update method in a new ultra-small language model: the Wave network. Specifically, we use a \textbf{complex vector} to represent each token, encoding both global and local semantics of the input text. A \textbf{complex vector} consists of two components: a magnitude vector representing the \textit{global semantics} of the input text, and a phase vector capturing the \textit{relationships between individual tokens and global semantics}. Experiments on the AG News text classification task demonstrate that, when generating complex vectors from randomly initialized token embeddings, our single-layer Wave Network achieves 90.91\% accuracy with wave interference and 91.66\% with wave modulation -- outperforming a single Transformer layer using BERT pre-trained embeddings by 19.23\% and 19.98\%, respectively, and approaching the accuracy of the pre-trained and fine-tuned BERT base model (94.64\%). Additionally, compared to BERT base, the Wave Network reduces video memory usage and training time by 77.34\% and 85.62\% during wave modulation. In summary, we used a 2.4-million-parameter small language model to achieve accuracy comparable to a 100-million-parameter BERT model in text classification.
- Abstract(参考訳): 本稿では,新しい超小言語モデルであるWave Networkにおいて,革新的なトークン表現と更新手法を提案する。
具体的には、入力テキストのグローバルなセマンティクスとローカルなセマンティクスの両方を符号化して、各トークンを表現するために \textbf{complex vector} を使用する。
入力テキストの \textit{global semantics} を表す等級ベクトルと、個々のトークンとグローバルセマンティクスの間の \textit{relationship をキャプチャする位相ベクトルである。
AG Newsのテキスト分類タスクの実験では、ランダムに初期化トークン埋め込みから複素ベクトルを生成する場合、波動干渉による90.91\%の精度、波動変調による91.66\%の精度を達成し、BERTプリトレーニング済み埋め込みを用いた単一トランスフォーマー層をそれぞれ19.23\%と19.98\%で上回り、事前訓練されたBERTベースモデル(94.64\%)の精度に近づいた。
さらに、BERTベースと比較して、Wave Networkは、ビデオメモリの使用時間とトレーニング時間を、ウェーブ変調中に77.34\%、85.62\%削減する。
要約すると、テキスト分類における100万パラメータBERTモデルに匹敵する精度を達成するために、2.4億パラメータの小さな言語モデルを用いた。
関連論文リスト
- On Input Formats for Radar Micro-Doppler Signature Processing by Convolutional Neural Networks [1.2499537119440245]
位相情報の有用性と畳み込みニューラルネットワークに対するドップラー時間入力の最適なフォーマットを解析する。
畳み込みニューラルネットワーク分類器によって達成された性能は入力表現の種類に大きく影響されている。
論文 参考訳(メタデータ) (2024-04-12T07:30:08Z) - T-PRIME: Transformer-based Protocol Identification for Machine-learning
at the Edge [7.170870264936032]
T-PRIMEはTransformerベースの機械学習アプローチである。
送信フレームの構造設計をアテンション機構を通じて学習する。
これは、DeepWaveのAIR-Tプラットフォーム上でのT-PRIMEのリアルタイム実現可能性を厳格に分析します。
論文 参考訳(メタデータ) (2024-01-09T22:01:55Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - End-to-End Neural Transformer Based Spoken Language Understanding [14.736425160859284]
音声言語理解(SLU)とは、音声信号から意味情報を推測する過程のこと。
本稿では,音声信号に埋め込まれた可変長領域,意図,スロットを予測可能な,エンドツーエンドのニューラルトランスフォーマーに基づくSLUモデルを提案する。
我々のエンドツーエンド変換器SLUは、Fluent Speech Commandsデータセットのドメイン、インテント、スロットを、それぞれ98.1 %、99.6 %、99.6 %と精度で予測する。
論文 参考訳(メタデータ) (2020-08-12T22:58:20Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。