論文の概要: Alleviating the Inequality of Attention Heads for Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2009.09672v2
- Date: Wed, 31 Aug 2022 11:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 04:51:04.379002
- Title: Alleviating the Inequality of Attention Heads for Neural Machine
Translation
- Title(参考訳): ニューラルマシン翻訳における注意ヘッドの不平等の緩和
- Authors: Zewei Sun, Shujian Huang, Xin-Yu Dai, Jiajun Chen
- Abstract要約: 近年の研究では、トランスフォーマーのアテンションヘッドが等しくないことが示されている。
簡単なマスキング手法として、HeadMaskを2つの特定の方法で提案する。
実験では、複数の言語ペアで翻訳の改善が達成されている。
- 参考スコア(独自算出の注目度): 60.34732031315221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show that the attention heads in Transformer are not equal. We
relate this phenomenon to the imbalance training of multi-head attention and
the model dependence on specific heads. To tackle this problem, we propose a
simple masking method: HeadMask, in two specific ways. Experiments show that
translation improvements are achieved on multiple language pairs. Subsequent
empirical analyses also support our assumption and confirm the effectiveness of
the method.
- Abstract(参考訳): 最近の研究では、トランスフォーマーの注意ヘッドは等しくないことが示されている。
この現象は多頭注意の不均衡トレーニングと特定の頭部に対するモデル依存に関係している。
そこで本稿では,この問題に対処するため,簡単なマスキング手法であるheadmaskを提案する。
実験では、複数の言語ペアで翻訳の改善が達成されている。
その後の実証分析も我々の仮定を支持し,本手法の有効性を確認した。
関連論文リスト
- Evade the Trap of Mediocrity: Promoting Diversity and Novelty in Text
Generation via Concentrating Attention [85.5379146125199]
強力なトランスフォーマーアーキテクチャは高品質な文を生成するのに優れていることが証明されている。
本研究では,Transformerにおけるスペーサーの注意値が多様性を向上させることを発見した。
注意分布のシャープさを制御するために,新しい注意正規化損失を導入する。
論文 参考訳(メタデータ) (2022-11-14T07:53:16Z) - Analysis of Self-Attention Head Diversity for Conformer-based Automatic
Speech Recognition [36.53453860656191]
頭部の多様性を高めるためのアプローチについて検討する。
トレーニング中に多様性を促進させる補助的損失関数を導入することは、より効果的なアプローチであることを示す。
最後に,アテンションヘッドの多様性と,頭部パラメータの勾配の類似性とを関連づける。
論文 参考訳(メタデータ) (2022-09-13T15:50:03Z) - Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation [0.0]
MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。
これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。
その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-14T17:37:47Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z) - Do Multilingual Neural Machine Translation Models Contain Language Pair
Specific Attention Heads? [16.392272086563175]
本稿では,多言語ニューラルトランスフォーメーション(NMT)モデルの個々のコンポーネントを解析することを目的とする。
我々は、ある言語対の翻訳に特有なエンコーダの自己注意とエンコーダ・デコーダのアテンションヘッドについて、他のものよりも検討する。
実験の結果、驚くほど重要な注意点のセットは言語ペア間で非常によく似ていることがわかった。
論文 参考訳(メタデータ) (2021-05-31T13:15:55Z) - Multi-Head Self-Attention with Role-Guided Masks [20.955992710112216]
本稿では,先行作業における役割を重要視する上での注意を導く手法を提案する。
これを行うには、入力の特定の部分に出席する頭を制限する役割固有のマスクを定義します。
7つの異なるデータセットを用いたテキスト分類と機械翻訳の実験により,本手法が競合注意ベース,CNN,RNNベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2020-12-22T21:34:02Z) - Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework
of Vision-and-Language BERTs [57.74359320513427]
ビジョンと言語BERTを事前訓練して、これらの2つの重要なAI領域の交差点での課題に取り組む方法が提案されている。
これら2つのカテゴリの違いについて検討し、単一の理論的枠組みの下でそれらをどのように統合できるかを示す。
5つのV&L BERT間の経験的差異を明らかにするための制御実験を行った。
論文 参考訳(メタデータ) (2020-11-30T18:55:24Z) - Uncertainty-Aware Semantic Augmentation for Neural Machine Translation [37.555675157198145]
本稿では,複数の意味的に等価なソース文間の普遍的な意味情報を明示的にキャプチャする不確実性を考慮した意味拡張を提案する。
我々のアプローチは、強いベースラインと既存の手法を大きく上回る。
論文 参考訳(メタデータ) (2020-10-09T07:48:09Z) - A Mixture of $h-1$ Heads is Better than $h$ Heads [63.12336930345417]
我々は注意的専門家モデル(MAE)の混合を提案する。
機械翻訳と言語モデリングの実験により、MAEは両方のタスクにおいて強いベースラインを上回ります。
分析の結果、我々のモデルは、異なる専門家を異なる入力に専門化することを学びました。
論文 参考訳(メタデータ) (2020-05-13T19:05:58Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。