論文の概要: Faster Transformer Decoding: N-gram Masked Self-Attention
- arxiv url: http://arxiv.org/abs/2001.04589v2
- Date: Wed, 18 Dec 2024 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:29:02.266701
- Title: Faster Transformer Decoding: N-gram Masked Self-Attention
- Title(参考訳): 高速なトランスフォーマーデコーディング: N-gram Masked Self-Attention
- Authors: Ciprian Chelba, Mia Chen, Ankur Bapna, Noam Shazeer,
- Abstract要約: 我々は,N$-gramの仮定をすることで,自己注意の計算に使用するターゲット側ウィンドウのトラッピングを提案する。
WMT EnDe と EnFr のデータセットでの実験では、タスクに応じて 4, ldots, 8$ の値で BLEU のスコアにおいて、$N$-gram のマスク付き自己保持モデルはほとんど失われていない。
- 参考スコア(独自算出の注目度): 30.786888745272133
- License:
- Abstract: Motivated by the fact that most of the information relevant to the prediction of target tokens is drawn from the source sentence $S=s_1, \ldots, s_S$, we propose truncating the target-side window used for computing self-attention by making an $N$-gram assumption. Experiments on WMT EnDe and EnFr data sets show that the $N$-gram masked self-attention model loses very little in BLEU score for $N$ values in the range $4, \ldots, 8$, depending on the task.
- Abstract(参考訳): ターゲットトークンの予測に関係する情報のほとんどは、ソース文$S=s_1, \ldots, s_S$から引き出されるという事実に触発され、我々は、$N$-gramの仮定をすることで、自己注意の計算に使用するターゲット側のウィンドウをトラッピングすることを提案する。
WMT EnDe と EnFr のデータセットの実験では、タスクに応じて 4, \ldots, 8$ の値で BLEU のスコアにおいて、$N$-gram のマスク付き自己保持モデルはほとんど失われていない。
関連論文リスト
- Transfer Learning for Latent Variable Network Models [18.31057192626801]
潜在変数ネットワークモデルにおける推定のための伝達学習について検討する。
潜伏変数が共有されている場合、エラーの消滅が可能であることを示す。
我々のアルゴリズムは、$o(1)$エラーを達成し、ソースやターゲットネットワーク上でパラメトリック形式を仮定しない。
論文 参考訳(メタデータ) (2024-06-05T16:33:30Z) - GIST: Greedy Independent Set Thresholding for Diverse Data Summarization [21.69260104523751]
我々は、min-distance various data summarization(textsfMDDS$)と呼ばれる新しいサブセット選択タスクを提案する。
目的は、各点のトータルユーティリティと、選択された任意の点間の最小距離をキャプチャする多様性項を組み合わせた目的を最大化することである。
この作業は、$textttGIST$アルゴリズムを示し、$textsfMDDS$の$frac23$-approximation保証を達成する。
論文 参考訳(メタデータ) (2024-05-29T04:39:24Z) - Transformer In-Context Learning for Categorical Data [51.23121284812406]
我々は、分類結果、非線形基礎モデル、非線形注意を考慮し、文脈内学習のレンズを通してトランスフォーマーを理解する研究を機能データで拡張する。
我々は、ImageNetデータセットを用いて、この数発の学習方法論の最初の実世界の実演であると考えられるものを提示する。
論文 参考訳(メタデータ) (2024-05-27T15:03:21Z) - Mechanics of Next Token Prediction with Self-Attention [41.82477691012942]
トランスフォーマーベースの言語モデルは、入力シーケンスが与えられた次のトークンを予測するために、大きなデータセットでトレーニングされる。
勾配降下による自己注意の訓練は,次のトークンを2つの異なるステップで生成するオートマトンを学習することを示す。
これらの発見が、どのように自己認識がシーケンシャルなデータをどのように処理し、より複雑なアーキテクチャをデミステライズする道を開くか、光を当てることを願っています。
論文 参考訳(メタデータ) (2024-03-12T21:15:38Z) - Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens [138.36729703589512]
神経大言語モデル(LLM)の時代には,$n$-gramの言語モデルがいまだに関係していることを示す。
これは、2つの側面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングする -- 5兆トークン。
次に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
論文 参考訳(メタデータ) (2024-01-30T19:03:49Z) - p-Laplacian Transformer [7.2541371193810384]
グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入している。
まず、自己注意機構が最小のラプラシアン正規化を得ることを示す。
次に、新しい変圧器のクラス、すなわち$p$-Laplacian Transformer (p-LaT)を提案する。
論文 参考訳(メタデータ) (2023-11-06T16:25:56Z) - Data Structures for Density Estimation [66.36971978162461]
p$のサブリニア数($n$)が与えられた場合、主な結果は$k$のサブリニアで$v_i$を識別する最初のデータ構造になります。
また、Acharyaなどのアルゴリズムの改良版も提供します。
論文 参考訳(メタデータ) (2023-06-20T06:13:56Z) - Sparse R-CNN: End-to-End Object Detection with Learnable Proposals [77.9701193170127]
Sparse R-CNNは、画像中の物体検出のための純粋にスパースな方法である。
最終的な予測は、最大でない処理後抑制なしで直接出力される。
われわれの研究が、物体検知器に先立って密集した慣例を再考することを願っている。
論文 参考訳(メタデータ) (2020-11-25T00:01:28Z) - Deep Learning Meets Projective Clustering [66.726500395069]
NLPネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $AinmathbbRntimes d$ としてエンコードすることである。
計算幾何学から遠射的クラスタリングに着想を得て、この部分空間を$k$部分空間の集合で置き換えることを提案する。
論文 参考訳(メタデータ) (2020-10-08T22:47:48Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。