論文の概要: Faster Transformer Decoding: N-gram Masked Self-Attention
- arxiv url: http://arxiv.org/abs/2001.04589v1
- Date: Tue, 14 Jan 2020 02:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 11:49:11.781271
- Title: Faster Transformer Decoding: N-gram Masked Self-Attention
- Title(参考訳): 高速なトランスフォーマーデコーディング: N-gram Masked Self-Attention
- Authors: Ciprian Chelba, Mia Chen, Ankur Bapna, and Noam Shazeer
- Abstract要約: 我々は,N$-gramの仮定をすることで,自己注意の計算に使用するターゲット側ウィンドウのトラッピングを提案する。
WMT EnDe と EnFr のデータセットでの実験では、タスクに応じて 4, ldots, 8$ の値で BLEU のスコアにおいて、$N$-gram のマスク付き自己保持モデルはほとんど失われていない。
- 参考スコア(独自算出の注目度): 21.578627040615697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the fact that most of the information relevant to the prediction
of target tokens is drawn from the source sentence $S=s_1, \ldots, s_S$, we
propose truncating the target-side window used for computing self-attention by
making an $N$-gram assumption. Experiments on WMT EnDe and EnFr data sets show
that the $N$-gram masked self-attention model loses very little in BLEU score
for $N$ values in the range $4, \ldots, 8$, depending on the task.
- Abstract(参考訳): ターゲットトークンの予測に関連する情報のほとんどは、ソース文 $s=s_1, \ldots, s_s$ から引き出されているという事実に動機づけられ、n$-gram の仮定をすることで、自己アテンションの計算に使用されるターゲット側のウィンドウの切断を提案する。
WMT EnDe と EnFr のデータセットの実験では、タスクに応じて 4, \ldots, 8$ の値で BLEU のスコアにおいて、$N$-gram のマスク付き自己保持モデルはほとんど失われていない。
関連論文リスト
- Mechanics of Next Token Prediction with Self-Attention [41.82477691012942]
トランスフォーマーベースの言語モデルは、入力シーケンスが与えられた次のトークンを予測するために、大きなデータセットでトレーニングされる。
勾配降下による自己注意の訓練は,次のトークンを2つの異なるステップで生成するオートマトンを学習することを示す。
これらの発見が、どのように自己認識がシーケンシャルなデータをどのように処理し、より複雑なアーキテクチャをデミステライズする道を開くか、光を当てることを願っています。
論文 参考訳(メタデータ) (2024-03-12T21:15:38Z) - Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion
Tokens [148.44679480658303]
神経大言語モデル(LLM)の時代において,n-gram言語モデルはいまだに関係していることを示す。
Infini-gramという名前のエンジン - 接尾辞配列をベースとして - はミリ秒レベルのレイテンシで$infty$-gramの確率を計算することができる。
その結果,次の予測精度(47%)はかなり高く,言語モデリングの難易度を大幅に低減するために,ニューラルLLMを補うことができることがわかった。
論文 参考訳(メタデータ) (2024-01-30T19:03:49Z) - p-Laplacian Transformer [7.2541371193810384]
グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入している。
まず、自己注意機構が最小のラプラシアン正規化を得ることを示す。
次に、新しい変圧器のクラス、すなわち$p$-Laplacian Transformer (p-LaT)を提案する。
論文 参考訳(メタデータ) (2023-11-06T16:25:56Z) - Federated Linear Bandits with Finite Adversarial Actions [20.1041278044797]
我々は、M$のクライアントが中央サーバと通信し、線形文脈の帯域幅問題を解決するための連合線形帯域幅モデルについて検討する。
逆有限作用集合のユニークな問題に対処するため、FedSupLinUCBアルゴリズムを提案する。
我々は、FedSupLinUCBが$tildeO(sqrtd T)$の完全後悔を達成したことを証明している。
論文 参考訳(メタデータ) (2023-11-02T03:41:58Z) - Self-Directed Linear Classification [50.659479930171585]
オンライン分類では、学習者は、誤りの総数を最小限に抑えるために、オンラインでラベルを予測することを目的としている。
そこで本研究では,予測順序の選択能力について検討し,最低次学習とランダム次学習の分離を初めて確立する。
論文 参考訳(メタデータ) (2023-08-06T15:38:44Z) - Data Structures for Density Estimation [66.36971978162461]
p$のサブリニア数($n$)が与えられた場合、主な結果は$k$のサブリニアで$v_i$を識別する最初のデータ構造になります。
また、Acharyaなどのアルゴリズムの改良版も提供します。
論文 参考訳(メタデータ) (2023-06-20T06:13:56Z) - Sparse R-CNN: End-to-End Object Detection with Learnable Proposals [77.9701193170127]
Sparse R-CNNは、画像中の物体検出のための純粋にスパースな方法である。
最終的な予測は、最大でない処理後抑制なしで直接出力される。
われわれの研究が、物体検知器に先立って密集した慣例を再考することを願っている。
論文 参考訳(メタデータ) (2020-11-25T00:01:28Z) - Deep Learning Meets Projective Clustering [66.726500395069]
NLPネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $AinmathbbRntimes d$ としてエンコードすることである。
計算幾何学から遠射的クラスタリングに着想を得て、この部分空間を$k$部分空間の集合で置き換えることを提案する。
論文 参考訳(メタデータ) (2020-10-08T22:47:48Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。