論文の概要: On the Benefits of Rank in Attention Layers
- arxiv url: http://arxiv.org/abs/2407.16153v1
- Date: Tue, 23 Jul 2024 03:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 18:45:39.573279
- Title: On the Benefits of Rank in Attention Layers
- Title(参考訳): 注意層におけるランクのメリットについて
- Authors: Noah Amsel, Gilad Yehudai, Joan Bruna,
- Abstract要約: 注意機構のランクと頭数との間には、劇的なトレードオフがあることが示される。
本研究は,本研究の成果を検証した既成のトランスフォーマーを用いた実験である。
- 参考スコア(独自算出の注目度): 38.651863218241154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based mechanisms are widely used in machine learning, most prominently in transformers. However, hyperparameters such as the rank of the attention matrices and the number of heads are scaled nearly the same way in all realizations of this architecture, without theoretical justification. In this work we show that there are dramatic trade-offs between the rank and number of heads of the attention mechanism. Specifically, we present a simple and natural target function that can be represented using a single full-rank attention head for any context length, but that cannot be approximated by low-rank attention unless the number of heads is exponential in the embedding dimension, even for short context lengths. Moreover, we prove that, for short context lengths, adding depth allows the target to be approximated by low-rank attention. For long contexts, we conjecture that full-rank attention is necessary. Finally, we present experiments with off-the-shelf transformers that validate our theoretical findings.
- Abstract(参考訳): 注意に基づくメカニズムは機械学習で広く使われ、特にトランスフォーマーで顕著である。
しかし、アテンション行列のランクやヘッド数などのハイパーパラメータは、理論上の正当化なしに、このアーキテクチャのすべての実現においてほぼ同じようにスケールされる。
本研究では,注意機構のランクと頭部数との間には,劇的なトレードオフが存在することを示す。
具体的には、任意のコンテキスト長に対して1つのフルランクアテンションヘッドを用いて表現できる単純で自然なターゲット関数を示すが、短いコンテキスト長であっても、埋め込み次元においてヘッド数が指数的でない限り、低ランクアテンションによって近似することはできない。
さらに,短時間の文脈長に対して,深度を付加することで,低ランクの注意力で目標を近似できることが証明された。
長い文脈では、フルランクの注意が必要であると推測する。
最後に,我々の理論的知見を検証した既成の変圧器を用いた実験を行った。
関連論文リスト
- FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Superiority of Multi-Head Attention in In-Context Linear Regression [39.469021333473435]
精度の高い埋め込み次元を持つマルチヘッドアテンションは、シングルヘッドアテンションよりも優れていることを示すために、正確な理論的解析を行う。
一般に、シングルヘッドの注意よりもマルチヘッドの注意が好ましい。
論文 参考訳(メタデータ) (2024-01-30T20:29:06Z) - Is Sparse Attention more Interpretable? [52.85910570651047]
我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。
入力とインデックス付き中間表現の間には弱い関係しか存在しません。
この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
論文 参考訳(メタデータ) (2021-06-02T11:42:56Z) - Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth [48.16156149749371]
この研究は、自己注意ネットワークを理解するための新しい方法を提案する。
それらの出力は、より小さな項の和に分解できることを示す。
我々は、自己意識が「トークン」に対して強い帰納的偏見を持っていることを証明している。
論文 参考訳(メタデータ) (2021-03-05T00:39:05Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。