論文の概要: A Dynamic Head Importance Computation Mechanism for Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2108.01377v1
- Date: Tue, 3 Aug 2021 09:16:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 18:34:20.847750
- Title: A Dynamic Head Importance Computation Mechanism for Neural Machine
Translation
- Title(参考訳): ニューラルマシン翻訳のための動的頭部重要度計算機構
- Authors: Akshay Goindani and Manish Shrivastava
- Abstract要約: 複数のアテンションヘッドを使用する並列アテンション機構は、様々な用途でTransformerモデルの性能を向上させる。
本研究では,入力に対する頭部の重要度を動的に計算する動的頭部重要度計算機構(DHICM)の設計に焦点をあてる。
モデルがすべてのヘッドに同じスコアを割り当てることを防ぐために、余分な損失関数を追加し、より重要なヘッドを特定し、パフォーマンスを即興で向上する。
- 参考スコア(独自算出の注目度): 22.784419165117512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple parallel attention mechanisms that use multiple attention heads
facilitate greater performance of the Transformer model for various
applications e.g., Neural Machine Translation (NMT), text classification. In
multi-head attention mechanism, different heads attend to different parts of
the input. However, the limitation is that multiple heads might attend to the
same part of the input, resulting in multiple heads being redundant. Thus, the
model resources are under-utilized. One approach to avoid this is to prune
least important heads based on certain importance score. In this work, we focus
on designing a Dynamic Head Importance Computation Mechanism (DHICM) to
dynamically calculate the importance of a head with respect to the input. Our
insight is to design an additional attention layer together with multi-head
attention, and utilize the outputs of the multi-head attention along with the
input, to compute the importance for each head. Additionally, we add an extra
loss function to prevent the model from assigning same score to all heads, to
identify more important heads and improvise performance. We analyzed
performance of DHICM for NMT with different languages. Experiments on different
datasets show that DHICM outperforms traditional Transformer-based approach by
large margin, especially, when less training data is available.
- Abstract(参考訳): 複数のアテンションヘッドを使用するマルチパラレルアテンション機構は、ニューラルネットワーク翻訳(nmt)やテキスト分類など、様々な用途においてトランスフォーマーモデルの性能を高める。
マルチヘッドアテンション機構では、異なるヘッドが入力の異なる部分に参加する。
しかし、制限は、複数のヘッドが入力の同じ部分に参加する可能性があり、結果として複数のヘッドが冗長になる。
したがって、モデルリソースは未利用である。
これを避けるための1つのアプローチは、特定の重要度スコアに基づいて、最小の重要度を推定することである。
本研究では,入力に対する頭部の重要性を動的に計算する動的頭部重要度計算機構(DHICM)の設計に焦点を当てる。
我々の洞察は、多視点の注意と共に追加の注意層を設計し、入力とともに多視点の注意の出力を利用して、各頭部の重要度を計算することである。
さらに、モデルがすべてのヘッドに同じスコアを割り当てることを防ぐために、余分な損失関数を追加し、より重要なヘッドを特定し、性能を即興的に向上させる。
異なる言語を用いたNMTにおけるDHICMの性能解析を行った。
異なるデータセットの実験によると、DHICMは従来のTransformerベースのアプローチよりも、特にトレーニングデータが少ない場合には、大きなマージンでパフォーマンスが向上する。
関連論文リスト
- Picking the Underused Heads: A Network Pruning Perspective of Attention
Head Selection for Fusing Dialogue Coreference Information [50.41829484199252]
マルチヘッド自己アテンション機構を持つトランスフォーマーベースのモデルは自然言語処理で広く利用されている。
ネットワークプルーニングの観点から,特徴注入のためのアテンションヘッドの選択と操作戦略について検討する。
論文 参考訳(メタデータ) (2023-12-15T05:27:24Z) - Pit One Against Many: Leveraging Attention-head Embeddings for
Parameter-efficient Multi-head Attention [42.92397219764559]
単一の共有プロジェクション行列と多重ヘッド埋め込み(MHE)のみを使用する代替モジュールを提案する。
我々は、MHEの注意が、代替の注意機構よりもはるかにメモリ効率が高いことを実証的に実証した。
論文 参考訳(メタデータ) (2023-10-11T21:38:40Z) - Analysis of Self-Attention Head Diversity for Conformer-based Automatic
Speech Recognition [36.53453860656191]
頭部の多様性を高めるためのアプローチについて検討する。
トレーニング中に多様性を促進させる補助的損失関数を導入することは、より効果的なアプローチであることを示す。
最後に,アテンションヘッドの多様性と,頭部パラメータの勾配の類似性とを関連づける。
論文 参考訳(メタデータ) (2022-09-13T15:50:03Z) - Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation [0.0]
MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。
これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。
その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-14T17:37:47Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z) - Multi-Head Self-Attention with Role-Guided Masks [20.955992710112216]
本稿では,先行作業における役割を重要視する上での注意を導く手法を提案する。
これを行うには、入力の特定の部分に出席する頭を制限する役割固有のマスクを定義します。
7つの異なるデータセットを用いたテキスト分類と機械翻訳の実験により,本手法が競合注意ベース,CNN,RNNベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2020-12-22T21:34:02Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。