論文の概要: Multi-Head Attention: Collaborate Instead of Concatenate
- arxiv url: http://arxiv.org/abs/2006.16362v2
- Date: Thu, 20 May 2021 14:48:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 13:09:20.505688
- Title: Multi-Head Attention: Collaborate Instead of Concatenate
- Title(参考訳): 多面的注意:コンカネートの代わりにコラボレート
- Authors: Jean-Baptiste Cordonnier, Andreas Loukas, Martin Jaggi
- Abstract要約: 我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
- 参考スコア(独自算出の注目度): 85.71058762269374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention layers are widely used in natural language processing (NLP) and are
beginning to influence computer vision architectures. Training very large
transformer models allowed significant improvement in both fields, but once
trained, these networks show symptoms of over-parameterization. For instance,
it is known that many attention heads can be pruned without impacting accuracy.
This work aims to enhance current understanding on how multiple heads interact.
Motivated by the observation that attention heads learn redundant key/query
projections, we propose a collaborative multi-head attention layer that enables
heads to learn shared projections. Our scheme decreases the number of
parameters in an attention layer and can be used as a drop-in replacement in
any transformer architecture. Our experiments confirm that sharing key/query
dimensions can be exploited in language understanding, machine translation and
vision. We also show that it is possible to re-parametrize a pre-trained
multi-head attention layer into our collaborative attention layer.
Collaborative multi-head attention reduces the size of the key and query
projections by 4 for same accuracy and speed. Our code is public.
- Abstract(参考訳): 注意層は自然言語処理(NLP)で広く使われており、コンピュータビジョンアーキテクチャに影響を与え始めている。
非常に大きなトランスフォーマーモデルの訓練は、両方の分野で大きな改善をもたらしたが、一度訓練すると、これらのネットワークは過剰なパラメータ化の症状を示す。
例えば、多くの注意ヘッドを精度を損なうことなく刈り取ることが知られている。
この研究は、複数の頭部の相互作用に関する現在の理解を強化することを目的としている。
注意ヘッドが冗長なキー/クエリのプロジェクションを学習するという観察に動機づけられ,ヘッドが共有プロジェクションを学習できる協調型マルチヘッドアテンション層を提案する。
提案手法はアテンション層のパラメータ数を減少させ,任意のトランスフォーマーアーキテクチャにおいてドロップイン置換として使用できる。
実験により,キー/クエリ次元の共有が言語理解,機械翻訳,視覚で活用可能であることを確認した。
また、トレーニング済みのマルチヘッドアテンション層を協調アテンション層に再パラメータ化することも可能であることを示す。
コラボレーティブなマルチヘッドアテンションは、同じ精度と速度で、キーとクエリのプロジェクションのサイズを4つ削減する。
私たちのコードは公開されています。
関連論文リスト
- A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文 参考訳(メタデータ) (2024-06-19T19:11:22Z) - What Can Transformer Learn with Varying Depth? Case Studies on Sequence Learning Tasks [15.874604623294427]
注意層が1つしかない変圧器は記憶に優れるが、他のタスクでは不足する。
単一注意層が実行可能な単純な操作のクラスを特定し、これらの単純な操作の組み合わせとして、複雑なタスクがアプローチ可能であることを示す。
論文 参考訳(メタデータ) (2024-04-02T02:45:12Z) - Convolution-enhanced Evolving Attention Networks [41.684265133316096]
Evolving Attention-enhanced Dilated Convolutional (EA-DC-) Transformerは最先端のモデルを大幅に上回っている。
これは、アテンションマップのレイヤーワイド進化を明示的にモデル化する最初の作品である。
論文 参考訳(メタデータ) (2022-12-16T08:14:04Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - Evolving Attention with Residual Convolutions [29.305149185821882]
本稿では,変圧器の性能向上を目的とした新しいメカニズムを提案する。
提案された注意メカニズムは、複数のタスクに対する様々な最新モデルに対する大幅なパフォーマンス改善を実現する。
論文 参考訳(メタデータ) (2021-02-20T15:24:06Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。