論文の概要: Hard-Coded Gaussian Attention for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2005.00742v1
- Date: Sat, 2 May 2020 08:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:24:41.084183
- Title: Hard-Coded Gaussian Attention for Neural Machine Translation
- Title(参考訳): ハードコードガウスのニューラルマシン翻訳への応用
- Authors: Weiqiu You, Simeng Sun, Mohit Iyyer
- Abstract要約: 学習パラメータを含まない「ハードコード」アテンションバリアントを開発する。
エンコーダとデコーダの学習したすべての自己注意ヘッドを、固定された入力に依存しないガウス分布に置き換えることで、4つの異なる言語ペア間のBLEUスコアに最小限の影響を与える。
このBLEUドロップの多くは、1つの学習されたクロスアテンションヘッドをハードコードされたトランスフォーマーに追加することで回収できる。
- 参考スコア(独自算出の注目度): 39.55545092068489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has questioned the importance of the Transformer's multi-headed
attention for achieving high translation quality. We push further in this
direction by developing a "hard-coded" attention variant without any learned
parameters. Surprisingly, replacing all learned self-attention heads in the
encoder and decoder with fixed, input-agnostic Gaussian distributions minimally
impacts BLEU scores across four different language pairs. However, additionally
hard-coding cross attention (which connects the decoder to the encoder)
significantly lowers BLEU, suggesting that it is more important than
self-attention. Much of this BLEU drop can be recovered by adding just a single
learned cross attention head to an otherwise hard-coded Transformer. Taken as a
whole, our results offer insight into which components of the Transformer are
actually important, which we hope will guide future work into the development
of simpler and more efficient attention-based models.
- Abstract(参考訳): 近年の研究では、トランスフォーマーが高い翻訳品質を達成するために多面的な注意を向けることの重要性が疑問視されている。
我々は、学習パラメータを含まない「ハードコード」アテンションバリアントを開発することで、この方向をさらに推し進める。
驚くべきことに、エンコーダとデコーダの学習済みのセルフアテンションヘッドを、固定された入力に依存しないガウス分布に置き換えることで、4つの異なる言語ペアのbleuスコアに最小限の影響を及ぼす。
しかし、デコーダとエンコーダを接続する)クロスアテンションのハードコーディングはBLEUを著しく低下させ、自己アテンションよりも重要であることを示唆している。
このBLEUドロップの多くは、1つの学習されたクロスアテンションヘッドをハードコードされたトランスフォーマーに追加することで回収できる。
全体としては、トランスフォーマーのどのコンポーネントが実際に重要であるかについての洞察を提供し、よりシンプルでより効率的な注意に基づくモデルの開発に将来の取り組みを導くことを望んでいる。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Tighter Bounds on the Expressivity of Transformer Encoders [9.974865253097127]
固定精度変圧器エンコーダの上位境界と変圧器エンコーダの下位境界とを同時に有する量子化器を数える一階述語論理の変種を同定する。
これにより、トランスフォーマーエンコーダが認識する言語の正確なキャラクタリゼーションに、これまでよりもずっと近いものになります。
論文 参考訳(メタデータ) (2023-01-25T18:05:55Z) - Sparsity and Sentence Structure in Encoder-Decoder Attention of
Summarization Systems [38.672160430296536]
トランスフォーマーモデルは、要約を含む幅広いNLPタスクにおいて最先端の結果を得た。
これまでの研究は、エンコーダの二次的自己保持機構という、重要なボトルネックに重点を置いてきた。
この研究はトランスのエンコーダ・デコーダのアテンション機構に焦点を当てている。
論文 参考訳(メタデータ) (2021-09-08T19:32:42Z) - PiSLTRc: Position-informed Sign Language Transformer with Content-aware
Convolution [0.42970700836450487]
本稿では,2つの特徴を持つ新しいモデルアーキテクチャ,すなわちPiSLTRcを提案する。
我々は,新しいコンテンツ認識近傍収集手法を用いて,関連性のある特徴を明示的に選択する。
これらの特徴を、位置インフォームされた時間的畳み込み層で集約し、ロバストな近傍強調符号表現を生成する。
バニラトランスフォーマーモデルと比較して、我々のモデルは3つの大規模手話ベンチマークで一貫して性能が向上する。
論文 参考訳(メタデータ) (2021-07-27T05:01:27Z) - On the Sub-Layer Functionalities of Transformer Decoder [74.83087937309266]
トランスフォーマーをベースとしたデコーダは,ソースおよびターゲット言語からの情報をいかに活用するかを検討する。
これらの知見に基づき,各トランスフォーマーデコーダ層内の残フィードフォワードモジュールは,性能の低下を最小限に抑えられることを示した。
論文 参考訳(メタデータ) (2020-10-06T11:50:54Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。