論文の概要: Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation
- arxiv url: http://arxiv.org/abs/2002.10260v3
- Date: Mon, 5 Oct 2020 16:10:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:56:34.140282
- Title: Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation
- Title(参考訳): 変圧器を用いた機械翻訳における固定エンコーダ自己注意パターン
- Authors: Alessandro Raganato, Yves Scherrer and J\"org Tiedemann
- Abstract要約: 我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
- 参考スコア(独自算出の注目度): 73.11214377092121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have brought a radical change to neural machine
translation. A key feature of the Transformer architecture is the so-called
multi-head attention mechanism, which allows the model to focus simultaneously
on different parts of the input. However, recent works have shown that most
attention heads learn simple, and often redundant, positional patterns. In this
paper, we propose to replace all but one attention head of each encoder layer
with simple fixed -- non-learnable -- attentive patterns that are solely based
on position and do not require any external knowledge. Our experiments with
different data sizes and multiple language pairs show that fixing the attention
heads on the encoder side of the Transformer at training time does not impact
the translation quality and even increases BLEU scores by up to 3 points in
low-resource scenarios.
- Abstract(参考訳): トランスフォーマーベースのモデルは、ニューラルマシン翻訳に根本的な変化をもたらした。
Transformerアーキテクチャの重要な特徴は、モデルが入力の異なる部分に同時にフォーカスできるいわゆるマルチヘッドアテンション機構である。
しかし、近年の研究では、ほとんどの注目層は単純で、しばしば冗長な位置パターンを学ぶことが示されている。
本稿では,各エンコーダ層の1つのアテンションヘッドを,位置のみに基づいて外部知識を必要としない単純な固定型(非学習可能)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えず、低リソースシナリオではBLEUスコアを最大3ポイント向上することを示した。
関連論文リスト
- iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Sparsity and Sentence Structure in Encoder-Decoder Attention of
Summarization Systems [38.672160430296536]
トランスフォーマーモデルは、要約を含む幅広いNLPタスクにおいて最先端の結果を得た。
これまでの研究は、エンコーダの二次的自己保持機構という、重要なボトルネックに重点を置いてきた。
この研究はトランスのエンコーダ・デコーダのアテンション機構に焦点を当てている。
論文 参考訳(メタデータ) (2021-09-08T19:32:42Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Multi-branch Attentive Transformer [152.07840447196384]
我々は,マルチブランチ・アテンティブ・トランスフォーマーと呼ばれる,シンプルで効果的なトランスフォーマーの変種を提案する。
注目層は複数のブランチの平均であり、各ブランチは独立したマルチヘッド注意層である。
機械翻訳、コード生成、自然言語理解の実験は、Transformerのこのような単純な変種が大きな改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-06-18T04:24:28Z) - Hard-Coded Gaussian Attention for Neural Machine Translation [39.55545092068489]
学習パラメータを含まない「ハードコード」アテンションバリアントを開発する。
エンコーダとデコーダの学習したすべての自己注意ヘッドを、固定された入力に依存しないガウス分布に置き換えることで、4つの異なる言語ペア間のBLEUスコアに最小限の影響を与える。
このBLEUドロップの多くは、1つの学習されたクロスアテンションヘッドをハードコードされたトランスフォーマーに追加することで回収できる。
論文 参考訳(メタデータ) (2020-05-02T08:16:13Z) - Hierarchical Transformer Network for Utterance-level Emotion Recognition [0.0]
発話レベルの感情認識(ULER)における課題に対処する。
従来のテキスト分類問題とは異なり、このタスクは限られた数のデータセットでサポートされている。
我々は、低レベルトランスとして、変換器(BERT)からの双方向エンコーダ表現を事前訓練した言語モデルを用いる。
さらに、初めてモデルに話者埋め込みを追加し、モデルが話者間の相互作用を捉えられるようにします。
論文 参考訳(メタデータ) (2020-02-18T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。