論文の概要: Multi-Head Attention: Collaborate Instead of Concatenate
- arxiv url: http://arxiv.org/abs/2006.16362v2
- Date: Thu, 20 May 2021 14:48:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 13:09:20.505688
- Title: Multi-Head Attention: Collaborate Instead of Concatenate
- Title(参考訳): 多面的注意:コンカネートの代わりにコラボレート
- Authors: Jean-Baptiste Cordonnier, Andreas Loukas, Martin Jaggi
- Abstract要約: 我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
- 参考スコア(独自算出の注目度): 85.71058762269374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention layers are widely used in natural language processing (NLP) and are
beginning to influence computer vision architectures. Training very large
transformer models allowed significant improvement in both fields, but once
trained, these networks show symptoms of over-parameterization. For instance,
it is known that many attention heads can be pruned without impacting accuracy.
This work aims to enhance current understanding on how multiple heads interact.
Motivated by the observation that attention heads learn redundant key/query
projections, we propose a collaborative multi-head attention layer that enables
heads to learn shared projections. Our scheme decreases the number of
parameters in an attention layer and can be used as a drop-in replacement in
any transformer architecture. Our experiments confirm that sharing key/query
dimensions can be exploited in language understanding, machine translation and
vision. We also show that it is possible to re-parametrize a pre-trained
multi-head attention layer into our collaborative attention layer.
Collaborative multi-head attention reduces the size of the key and query
projections by 4 for same accuracy and speed. Our code is public.
- Abstract(参考訳): 注意層は自然言語処理(NLP)で広く使われており、コンピュータビジョンアーキテクチャに影響を与え始めている。
非常に大きなトランスフォーマーモデルの訓練は、両方の分野で大きな改善をもたらしたが、一度訓練すると、これらのネットワークは過剰なパラメータ化の症状を示す。
例えば、多くの注意ヘッドを精度を損なうことなく刈り取ることが知られている。
この研究は、複数の頭部の相互作用に関する現在の理解を強化することを目的としている。
注意ヘッドが冗長なキー/クエリのプロジェクションを学習するという観察に動機づけられ,ヘッドが共有プロジェクションを学習できる協調型マルチヘッドアテンション層を提案する。
提案手法はアテンション層のパラメータ数を減少させ,任意のトランスフォーマーアーキテクチャにおいてドロップイン置換として使用できる。
実験により,キー/クエリ次元の共有が言語理解,機械翻訳,視覚で活用可能であることを確認した。
また、トレーニング済みのマルチヘッドアテンション層を協調アテンション層に再パラメータ化することも可能であることを示す。
コラボレーティブなマルチヘッドアテンションは、同じ精度と速度で、キーとクエリのプロジェクションのサイズを4つ削減する。
私たちのコードは公開されています。
関連論文リスト
- AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - Convolution-enhanced Evolving Attention Networks [41.684265133316096]
Evolving Attention-enhanced Dilated Convolutional (EA-DC-) Transformerは最先端のモデルを大幅に上回っている。
これは、アテンションマップのレイヤーワイド進化を明示的にモデル化する最初の作品である。
論文 参考訳(メタデータ) (2022-12-16T08:14:04Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - Understanding top-down attention using task-oriented ablation design [0.22940141855172028]
トップダウンの注目により、ニューラルネットワークは、人工的および生物学的の両方において、与えられたタスクに最も関連性の高い情報に集中することができる。
我々は,タスク指向アブレーション設計と呼ばれる一般的なフレームワークに基づく計算実験により,この問題に対処することを目指している。
2つのニューラルネットワークの性能を比較する。
論文 参考訳(メタデータ) (2021-06-08T21:01:47Z) - Evolving Attention with Residual Convolutions [29.305149185821882]
本稿では,変圧器の性能向上を目的とした新しいメカニズムを提案する。
提案された注意メカニズムは、複数のタスクに対する様々な最新モデルに対する大幅なパフォーマンス改善を実現する。
論文 参考訳(メタデータ) (2021-02-20T15:24:06Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。