論文の概要: Self-attention Networks Localize When QK-eigenspectrum Concentrates
- arxiv url: http://arxiv.org/abs/2402.02098v1
- Date: Sat, 3 Feb 2024 09:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:17:55.166331
- Title: Self-attention Networks Localize When QK-eigenspectrum Concentrates
- Title(参考訳): QK固有スペクトル集中時の自己注意ネットワーク
- Authors: Han Bao, Ryuichiro Hataya, Ryo Karakida
- Abstract要約: 自己認識メカニズムは、現代の機械学習で一般的である。
2つの議論が、モデルのパフォーマンスに注意を向けるローカライゼーションを結び付けている。
我々は,小さな固有スペクトルの分散が注意を局所化させることを示した。
- 参考スコア(独自算出の注目度): 9.379890125442335
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The self-attention mechanism prevails in modern machine learning. It has an
interesting functionality of adaptively selecting tokens from an input sequence
by modulating the degree of attention localization, which many researchers
speculate is the basis of the powerful model performance but complicates the
underlying mechanism of the learning dynamics. In recent years, mainly two
arguments have connected attention localization to the model performances. One
is the rank collapse, where the embedded tokens by a self-attention block
become very similar across different tokens, leading to a less expressive
network. The other is the entropy collapse, where the attention probability
approaches non-uniform and entails low entropy, making the learning dynamics
more likely to be trapped in plateaus. These two failure modes may apparently
contradict each other because the rank and entropy collapses are relevant to
uniform and non-uniform attention, respectively. To this end, we characterize
the notion of attention localization by the eigenspectrum of query-key
parameter matrices and reveal that a small eigenspectrum variance leads
attention to be localized. Interestingly, the small eigenspectrum variance
prevents both rank and entropy collapse, leading to better model expressivity
and trainability.
- Abstract(参考訳): 自己認識メカニズムは、現代の機械学習で一般的である。
多くの研究者は、強力なモデル性能の基盤でありながら、学習のダイナミクスの根底にあるメカニズムを複雑にし、注意の定位度を調節することで、入力シーケンスからトークンを適応的に選択する興味深い機能を持っていると推測している。
近年、主に2つの議論がモデルの性能に注意を向けている。
一つはランク崩壊であり、自己注意ブロックによる埋め込みトークンは異なるトークン間で非常によく似ており、表現力の低いネットワークに繋がる。
もう1つはエントロピー崩壊(entropy collapse)で、注意確率は一様ではなく、低エントロピーを伴うため、学習のダイナミクスは高原に閉じ込められる傾向が強まる。
これらの2つの障害モードは、ランクとエントロピーの崩壊がそれぞれ均一な注意と非均一な注意に関係しているため、明らかに矛盾する可能性がある。
この目的のために,クエリキーパラメータ行列の固有スペクトルによる注意定位の概念を特徴付け,最小の固有スペクトル分散が注意の局所化に繋がることを示す。
興味深いことに、小さな固有スペクトラム分散はランクとエントロピーの崩壊を防ぎ、より優れたモデル表現性とトレーサビリティをもたらす。
関連論文リスト
- Unveiling and Controlling Anomalous Attention Distribution in Transformers [8.456319173083315]
ウェイバー現象は、要素が情報への貢献に影響を与えることなく過剰な注意を吸収することを可能にする。
特定のモデルでは、位置符号化と注意パターンの違いにより、モデルによるウェイブラー要素の選択は2つの方法に分類できることがわかった。
論文 参考訳(メタデータ) (2024-06-26T11:53:35Z) - On the Role of Attention Masks and LayerNorm in Transformers [55.81177251872377]
自己注意はトランスの鍵となるメカニズムである。
近年の研究では、純粋な自己意識は階級崩壊の度合いが増すことが示されている。
論文 参考訳(メタデータ) (2024-05-29T05:41:28Z) - A phase transition between positional and semantic learning in a
solvable model of dot-product attention [20.83573496458023]
点積注意層が位置注意行列と意味注意行列をいかに学習するかを示す。
アルゴリズム的なタスクに対して、同じ単純なアーキテクチャが、位置的または意味的なメカニズムを使ってどのように学習できるかを実験的に示す。
論文 参考訳(メタデータ) (2024-02-06T11:13:54Z) - An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models [64.87562101662952]
入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。
我々は入力トークンの十分かつ最小限の表現の存在を確立する。
所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
論文 参考訳(メタデータ) (2022-12-30T17:59:01Z) - Revisiting Attention Weights as Explanations from an Information
Theoretic Perspective [4.499369811647602]
注意機構は、他のモデル要素と慎重に組み合わせた場合、説明をモデル化するためのショートカットとして機能する可能性があることを示す。
本研究により,注意機構は,他のモデル要素と慎重に組み合わせた場合,モデル説明のためのショートカットとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-31T12:53:20Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Attention or memory? Neurointerpretable agents in space and time [0.0]
本研究では,意味的特徴空間にタスク状態表現を実装する自己認識機構を組み込んだモデルの設計を行う。
エージェントの選択的特性を評価するために,多数のタスク非関連特徴を観察に付加する。
神経科学の予測に従って、自己注意は、ベンチマークモデルと比較してノイズに対する堅牢性を高める。
論文 参考訳(メタデータ) (2020-07-09T15:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。