論文の概要: Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Transformers
- arxiv url: http://arxiv.org/abs/2410.07799v1
- Date: Thu, 10 Oct 2024 10:34:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 14:46:14.618196
- Title: Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Transformers
- Title(参考訳): マインド・ザ・ギャップ(Mind the Gap) : 変圧器のランク崩壊と信号伝搬のスペクトル解析
- Authors: Alireza Naderi, Thiziri Nait Saada, Jared Tanner,
- Abstract要約: 本稿では,無作為マトリクスの観点から,テキスト分割のみの変圧器における信号伝搬について検討する。
本研究では,注目行列の2つの最大の特異値間のテクストスペクトルギャップが,ランク崩壊の原因となることを示す。
そこで本研究では,スペクトルギャップを除去することにより,広帯域におけるランク崩壊を解消する,新しい,シンプルかつ実用的な解法を提案する。
- 参考スコア(独自算出の注目度): 3.686808512438363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention layers are the core component of transformers, the current state-of-the-art neural network architecture. However, \softmaxx-based attention puts transformers' trainability at risk. Even \textit{at initialisation}, the propagation of signals and gradients through the random network can be pathological, resulting in known issues such as (i) vanishing/exploding gradients and (ii) \textit{rank collapse}, i.e. when all tokens converge to a single representation \textit{with depth}. This paper examines signal propagation in \textit{attention-only} transformers from a random matrix perspective, illuminating the origin of such issues, as well as unveiling a new phenomenon -- (iii) rank collapse \textit{in width}. Modelling \softmaxx-based attention at initialisation with Random Markov matrices, our theoretical analysis reveals that a \textit{spectral gap} between the two largest singular values of the attention matrix causes (iii), which, in turn, exacerbates (i) and (ii). Building on this insight, we propose a novel, yet simple, practical solution to resolve rank collapse in width by removing the spectral gap. Moreover, we validate our findings and discuss the training benefits of the proposed fix through experiments that also motivate a revision of some of the default parameter scaling. Our attention model accurately describes the standard key-query attention in a single-layer transformer, making this work a significant first step towards a better understanding of the initialisation dynamics in the multi-layer case.
- Abstract(参考訳): 注意層は、現在の最先端のニューラルネットワークアーキテクチャであるトランスフォーマーのコアコンポーネントである。
しかし、‘softmaxx-based attention’ はトランスフォーマーの訓練性を危険にさらす。
textit{at initialization} でさえ、ランダムネットワークを通しての信号と勾配の伝播は病理学的であり、結果として既知の問題が発生する。
(i)勾配の消滅・拡大
(ii) \textit{rank collapse} すなわち、すべてのトークンが単一の表現である \textit{with depth} に収束するとき。
本稿では, ランダムマトリクスの観点からのtextit{attention-only} 変圧器の信号伝搬について検討し, その発生源を解明し, 新たな現象を公表する。
(iii) ランク崩壊 \textit{in width}。
Random Markov行列による初期化における \softmaxx-based attention のモデル化により、注目行列の2つの最大の特異値の間の \textit{spectral gap} が原因となることが明らかとなった。
(三) 逆に悪化する
(i)および
(II)。
この知見に基づいて,スペクトルギャップを除去し,広帯域におけるランク崩壊を解消する,新しい,シンプルかつ実用的な解法を提案する。
さらに,本研究の成果を検証し,既定パラメータスケーリングの修正を動機とした実験を通じて,提案手法のトレーニング効果について考察する。
注意モデルでは, 単一層トランスにおける標準キークエリアテンションを正確に記述し, マルチ層ケースにおける初期化のダイナミクスをよりよく理解するための重要な第一歩となる。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Unveiling and Controlling Anomalous Attention Distribution in Transformers [8.456319173083315]
ウェイバー現象は、要素が情報への貢献に影響を与えることなく過剰な注意を吸収することを可能にする。
特定のモデルでは、位置符号化と注意パターンの違いにより、モデルによるウェイブラー要素の選択は2つの方法に分類できることがわかった。
論文 参考訳(メタデータ) (2024-06-26T11:53:35Z) - Local to Global: Learning Dynamics and Effect of Initialization for Transformers [20.02103237675619]
我々は一階マルコフ連鎖と単層変圧器に焦点をあてる。
我々は,次世代の予測損失に基づいてトレーニングしたトランスフォーマーパラメータが,グローバルあるいはローカルのミニマに収束可能であることを証明した。
論文 参考訳(メタデータ) (2024-06-05T08:57:41Z) - Texture, Shape and Order Matter: A New Transformer Design for Sequential DeepFake Detection [57.100891917805086]
シーケンシャルディープフェイク検出は、順番に操作シーケンスを予測する新しいタスクである。
本稿では, テクスチャ, 形状, 操作順序の3つの視点を探索し, TSOM と呼ばれる新しいトランスフォーマーの設計について述べる。
論文 参考訳(メタデータ) (2024-04-22T04:47:52Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。
トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文 参考訳(メタデータ) (2022-06-07T09:07:24Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - A Fourier-based Framework for Domain Generalization [82.54650565298418]
ドメインの一般化は、複数のソースドメインから伝達可能な知識を学習して、未確認のターゲットドメインに一般化することでこの問題に対処することを目的としている。
本稿では、ドメイン一般化のための新しいフーリエに基づく視点を紹介する。
3つのベンチマーク実験により,提案手法は領域一般化のための最先端性能を実現することができることを示した。
論文 参考訳(メタデータ) (2021-05-24T06:50:30Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。