論文の概要: On the Role of Attention Masks and LayerNorm in Transformers
- arxiv url: http://arxiv.org/abs/2405.18781v2
- Date: Fri, 01 Nov 2024 01:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:33:20.219762
- Title: On the Role of Attention Masks and LayerNorm in Transformers
- Title(参考訳): 変圧器におけるアテンションマスクとレイヤーノームの役割について
- Authors: Xinyi Wu, Amir Ajorlou, Yifei Wang, Stefanie Jegelka, Ali Jadbabaie,
- Abstract要約: 自己注意はトランスの鍵となるメカニズムである。
近年の研究では、純粋な自己意識は階級崩壊の度合いが増すことが示されている。
- 参考スコア(独自算出の注目度): 55.81177251872377
- License:
- Abstract: Self-attention is the key mechanism of transformers, which are the essential building blocks of modern foundation models. Recent studies have shown that pure self-attention suffers from an increasing degree of rank collapse as depth increases, limiting model expressivity and further utilization of model depth. The existing literature on rank collapse, however, has mostly overlooked other critical components in transformers that may alleviate the rank collapse issue. In this paper, we provide a general analysis of rank collapse under self-attention, taking into account the effects of attention masks and layer normalization (LayerNorm). In particular, we find that although pure masked attention still suffers from exponential collapse to a rank one subspace, sparse or local masked attention can provably slow down the collapse rate. In the case of self-attention with LayerNorm, we first show that for certain classes of value matrices, collapse to a rank one subspace still happens exponentially. However, through construction of nontrivial counterexamples, we then establish that with proper choice of value matrices, a general class of sequences may not converge to a rank one subspace, and the self-attention dynamics with LayerNorm can simultaneously possess a rich set of equilibria with any possible rank between one and full. Our result refutes the previous hypothesis that LayerNorm plays no role in the rank collapse of self-attention and suggests that self-attention with LayerNorm constitutes a much more expressive, versatile nonlinear dynamical system than what was originally thought.
- Abstract(参考訳): 自己注意(Self-attention)は、トランスフォーマーの鍵となるメカニズムであり、現代の基礎モデルの基本的な構成要素である。
近年の研究では、深度が増加し、モデル表現率が制限され、モデル深度がさらに活用されるにつれて、純粋な自己意識がランク崩壊の度合いの上昇に悩まされることが示されている。
しかし、既存の階位崩壊に関する文献は、階位崩壊問題を緩和するかもしれない変圧器の他の重要な要素を見落としている。
本稿では,アテンションマスクとレイヤー正規化(LayerNorm)の影響を考慮した,自己注意下でのランク崩壊の一般解析を行う。
特に、純粋なマスク付き注意は依然としてランク1のサブスペースへの指数的崩壊に悩まされているが、スパースまたは局所マスク付き注意は、崩壊率を確実に低下させる可能性がある。
LayerNorm との自己アテンションの場合、ある値行列のクラスにおいて、ランク 1 の部分空間の崩壊が指数関数的に起こることを示す。
しかし、非自明な反例の構築により、値行列の適切な選択により、列の一般類はランク 1 の部分空間に収束せず、LayerNorm の自己注意力学は1 とフルの任意のランクのリッチな平衡集合を同時に持つことができる。
我々の結果は、LayerNormが自己注意のランク崩壊に何の役割も果たさないという以前の仮説を否定し、LayerNormとの自己意識が、当初考えられていたよりもはるかに表現力があり、多角的な非線形力学系を構成することを示唆している。
関連論文リスト
- Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Lambda-Skip Connections: the architectural component that prevents Rank Collapse [3.0411373811598112]
本稿では、変圧器から状態空間モデル(SSM)へのランク崩壊の理論を拡張する。
本研究では,emphlambda-skip接続と呼ばれる古典的スキップ接続コンポーネントのパラメータ化バージョンが,ランク崩壊防止の保証を提供する方法について検討する。
我々の知る限り、これはランク崩壊防止の一般的な保証を提供する最初の研究であり、SSMの文脈でランク崩壊を調査するものである。
論文 参考訳(メタデータ) (2024-10-14T15:16:33Z) - Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Transformers [3.686808512438363]
本稿では,無作為マトリクスの観点から,テキスト分割のみの変圧器における信号伝搬について検討する。
本研究では,注目行列の2つの最大の特異値間のテクストスペクトルギャップが,ランク崩壊の原因となることを示す。
そこで本研究では,スペクトルギャップを除去することにより,広帯域におけるランク崩壊を解消する,新しい,シンプルかつ実用的な解法を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:34:18Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Self-attention Networks Localize When QK-eigenspectrum Concentrates [9.379890125442335]
自己認識メカニズムは、現代の機械学習で一般的である。
2つの議論が、モデルのパフォーマンスに注意を向けるローカライゼーションを結び付けている。
我々は,小さな固有スペクトルの分散が注意を局所化させることを示した。
論文 参考訳(メタデータ) (2024-02-03T09:35:53Z) - Which Features are Learnt by Contrastive Learning? On the Role of
Simplicity Bias in Class Collapse and Feature Suppression [59.97965005675144]
コントラスト学習(CL)は,ラベル管理の有無に関わらず,表現学習の強力な技術として登場した。
CLによって学習される特徴を判定する,理論的に厳密な最初の統合フレームワークを提供する。
本稿では,2つの理論的動機付けされた解として,埋め込み次元の増大とデータ拡張の質の向上について述べる。
論文 参考訳(メタデータ) (2023-05-25T23:37:22Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。
トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文 参考訳(メタデータ) (2022-06-07T09:07:24Z) - Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth [48.16156149749371]
この研究は、自己注意ネットワークを理解するための新しい方法を提案する。
それらの出力は、より小さな項の和に分解できることを示す。
我々は、自己意識が「トークン」に対して強い帰納的偏見を持っていることを証明している。
論文 参考訳(メタデータ) (2021-03-05T00:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。