論文の概要: Multi-head or Single-head? An Empirical Comparison for Transformer
Training
- arxiv url: http://arxiv.org/abs/2106.09650v1
- Date: Thu, 17 Jun 2021 16:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 16:10:51.555184
- Title: Multi-head or Single-head? An Empirical Comparison for Transformer
Training
- Title(参考訳): マルチヘッドかシングルヘッドか?
変圧器訓練における経験的比較
- Authors: Liyuan Liu and Jialu Liu and Jiawei Han
- Abstract要約: マルチヘッドアテンションは、最近のTransformerモデルの成功において重要な役割を担っている。
複数のポジションに共同で出席することは、多面的注意のユニークな特徴ではないことを示す。
近年のディープラーニングの進歩により、384層トランスのトレーニングを安定させることに成功した。
- 参考スコア(独自算出の注目度): 62.272657851060465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-head attention plays a crucial role in the recent success of
Transformer models, which leads to consistent performance improvements over
conventional attention in various applications. The popular belief is that this
effectiveness stems from the ability of jointly attending multiple positions.
In this paper, we first demonstrate that jointly attending multiple positions
is not a unique feature of multi-head attention, as multi-layer single-head
attention also attends multiple positions and is more effective. Then, we
suggest the main advantage of the multi-head attention is the training
stability, since it has less number of layers than the single-head attention,
when attending the same number of positions. For example, 24-layer 16-head
Transformer (BERT-large) and 384-layer single-head Transformer has the same
total attention head number and roughly the same model size, while the
multi-head one is significantly shallower. Meanwhile, we show that, with recent
advances in deep learning, we can successfully stabilize the training of the
384-layer Transformer. As the training difficulty is no longer a bottleneck,
substantially deeper single-head Transformer achieves consistent performance
improvements without tuning hyper-parameters.
- Abstract(参考訳): マルチヘッドアテンションは、トランスフォーマーモデルの成功において重要な役割を担い、様々なアプリケーションにおける従来のアテンションよりも一貫したパフォーマンス改善につながっている。
この効果は複数の地位に共同で出席する能力に起因しているという説が有力である。
本稿では,複数位置への共同参加が多面的注意のユニークな特徴ではなく,多層的一面的注意の多面的関与がより効果的であることを示す。
そこで本研究では,同一位置にいる場合,単頭注意よりも層数が少ないため,多頭注意の主な利点はトレーニング安定性にあることを示唆する。
例えば、24層16ヘッドトランス (BERT-large) と384層384層のシングルヘッドトランスは同じアテンションヘッド番号とほぼ同じモデルサイズを持ち、マルチヘッドトランスははるかに浅い。
一方,近年のディープラーニングの進歩により,384層トランスフォーマのトレーニングを安定させることができた。
トレーニングの難しさはもはやボトルネックにならないため、非常に深いシングルヘッドトランスフォーマーはハイパーパラメータをチューニングせずに一貫したパフォーマンス改善を達成している。
関連論文リスト
- Superiority of Multi-Head Attention in In-Context Linear Regression [39.469021333473435]
精度の高い埋め込み次元を持つマルチヘッドアテンションは、シングルヘッドアテンションよりも優れていることを示すために、正確な理論的解析を行う。
一般に、シングルヘッドの注意よりもマルチヘッドの注意が好ましい。
論文 参考訳(メタデータ) (2024-01-30T20:29:06Z) - Wide Attention Is The Way Forward For Transformers [9.252523881586054]
幅広い単一層トランスフォーマーモデルでは,自然言語処理(NLP)タスクにおいて,より深い処理と競合したり,より優れたりすることを示す。
以上の結果から,NLP用トランスフォーマーの開発において重要な方向は幅であり,深度はそれほど重要でないことが示唆された。
論文 参考訳(メタデータ) (2022-10-02T21:49:54Z) - Transformer with a Mixture of Gaussian Keys [31.91701434633319]
マルチヘッドアテンションは最先端のトランスフォーマーの背後にある原動力である。
Transformer-MGKは、トランスフォーマーの冗長なヘッドを、各ヘッドにキーの混合で置き換える。
従来のトランスフォーマーと比較して、Transformer-MGKはトレーニングと推論を加速し、パラメータが少なく、計算するFLOPも少ない。
論文 参考訳(メタデータ) (2021-10-16T23:43:24Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z) - Multi-branch Attentive Transformer [152.07840447196384]
我々は,マルチブランチ・アテンティブ・トランスフォーマーと呼ばれる,シンプルで効果的なトランスフォーマーの変種を提案する。
注目層は複数のブランチの平均であり、各ブランチは独立したマルチヘッド注意層である。
機械翻訳、コード生成、自然言語理解の実験は、Transformerのこのような単純な変種が大きな改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-06-18T04:24:28Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。