論文の概要: Low-Rank Bottleneck in Multi-head Attention Models
- arxiv url: http://arxiv.org/abs/2002.07028v1
- Date: Mon, 17 Feb 2020 16:16:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 12:07:33.990127
- Title: Low-Rank Bottleneck in Multi-head Attention Models
- Title(参考訳): マルチヘッドアテンションモデルにおける低ランクボトルネック
- Authors: Srinadh Bhojanapalli, Chulhee Yun, Ankit Singh Rawat, Sashank J.
Reddi, Sanjiv Kumar
- Abstract要約: 現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
- 参考スコア(独自算出の注目度): 74.83235382203604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention based Transformer architecture has enabled significant advances in
the field of natural language processing. In addition to new pre-training
techniques, recent improvements crucially rely on working with a relatively
larger embedding dimension for tokens. Unfortunately, this leads to models that
are prohibitively large to be employed in the downstream tasks. In this paper
we identify one of the important factors contributing to the large embedding
size requirement. In particular, our analysis highlights that the scaling
between the number of heads and the size of each head in the current
architecture gives rise to a low-rank bottleneck in attention heads, causing
this limitation. We further validate this in our experiments. As a solution we
propose to set the head size of an attention unit to input sequence length, and
independent of the number of heads, resulting in multi-head attention layers
with provably more expressive power. We empirically show that this allows us to
train models with a relatively smaller embedding dimension and with better
performance scaling.
- Abstract(参考訳): 注意に基づくトランスフォーマーアーキテクチャは、自然言語処理の分野で大きな進歩をもたらした。
新しい事前トレーニング技術に加えて、最近の改善はトークンの比較的大きな埋め込み次元での作業に大きく依存している。
残念なことに、これは下流タスクで使用するのが禁止されるほど大きいモデルにつながります。
本稿では,大型の組込みサイズ要求に寄与する重要な要因の1つを明らかにする。
特に,本分析では,現在のアーキテクチャにおける頭部数と頭部の大きさのスケーリングによって注目ヘッドのボトルネックが低くなり,この制限が生じることを強調した。
我々はこれを実験でさらに検証する。
そこで我々は,アテンションユニットのヘッドサイズを入力シーケンス長に設定し,ヘッド数に依存せず,より表現力の高いマルチヘッドアテンション層を実現することを提案する。
これにより、比較的小さな埋め込み次元で、より優れたパフォーマンススケーリングでモデルをトレーニングできることを実証的に示します。
関連論文リスト
- On the Benefits of Rank in Attention Layers [38.651863218241154]
注意機構のランクと頭数との間には、劇的なトレードオフがあることが示される。
本研究は,本研究の成果を検証した既成のトランスフォーマーを用いた実験である。
論文 参考訳(メタデータ) (2024-07-23T03:40:24Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation [0.0]
MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。
これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。
その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-14T17:37:47Z) - SimpleTron: Eliminating Softmax from Attention Computation [68.8204255655161]
そこで本研究では,ドット積のペアワイズアテンション層がモデル性能に冗長であることを示す。
我々の知る限りでは、Long-Range Arenaベンチマークのいくつかのタスクにおける既存の注意評価よりも優れる、シンプルで高速な代替案を提案する。
論文 参考訳(メタデータ) (2021-11-23T17:06:01Z) - Layer-wise Pruning of Transformer Attention Heads for Efficient Language
Modeling [22.278610066038954]
アテンションヘッドプルーニングはこの問題を解決するための有望な手法である。
本稿では,性能劣化を最小限に抑えるための3つのトレーニング手法を提案する。
我々のプルーンドモデルは、WikiText-103言語モデリングベンチマークのTransformer-XLよりも、同等のパラメータサイズでのパープレキシティが一貫して低いことを示す。
論文 参考訳(メタデータ) (2021-10-07T08:19:26Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z) - A Dynamic Head Importance Computation Mechanism for Neural Machine
Translation [22.784419165117512]
複数のアテンションヘッドを使用する並列アテンション機構は、様々な用途でTransformerモデルの性能を向上させる。
本研究では,入力に対する頭部の重要度を動的に計算する動的頭部重要度計算機構(DHICM)の設計に焦点をあてる。
モデルがすべてのヘッドに同じスコアを割り当てることを防ぐために、余分な損失関数を追加し、より重要なヘッドを特定し、パフォーマンスを即興で向上する。
論文 参考訳(メタデータ) (2021-08-03T09:16:55Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。