論文の概要: Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Transformers
- arxiv url: http://arxiv.org/abs/2410.07799v1
- Date: Thu, 10 Oct 2024 10:34:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 14:46:14.618196
- Title: Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Transformers
- Title(参考訳): マインド・ザ・ギャップ(Mind the Gap) : 変圧器のランク崩壊と信号伝搬のスペクトル解析
- Authors: Alireza Naderi, Thiziri Nait Saada, Jared Tanner,
- Abstract要約: 本稿では,無作為マトリクスの観点から,テキスト分割のみの変圧器における信号伝搬について検討する。
本研究では,注目行列の2つの最大の特異値間のテクストスペクトルギャップが,ランク崩壊の原因となることを示す。
そこで本研究では,スペクトルギャップを除去することにより,広帯域におけるランク崩壊を解消する,新しい,シンプルかつ実用的な解法を提案する。
- 参考スコア(独自算出の注目度): 3.686808512438363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention layers are the core component of transformers, the current state-of-the-art neural network architecture. However, \softmaxx-based attention puts transformers' trainability at risk. Even \textit{at initialisation}, the propagation of signals and gradients through the random network can be pathological, resulting in known issues such as (i) vanishing/exploding gradients and (ii) \textit{rank collapse}, i.e. when all tokens converge to a single representation \textit{with depth}. This paper examines signal propagation in \textit{attention-only} transformers from a random matrix perspective, illuminating the origin of such issues, as well as unveiling a new phenomenon -- (iii) rank collapse \textit{in width}. Modelling \softmaxx-based attention at initialisation with Random Markov matrices, our theoretical analysis reveals that a \textit{spectral gap} between the two largest singular values of the attention matrix causes (iii), which, in turn, exacerbates (i) and (ii). Building on this insight, we propose a novel, yet simple, practical solution to resolve rank collapse in width by removing the spectral gap. Moreover, we validate our findings and discuss the training benefits of the proposed fix through experiments that also motivate a revision of some of the default parameter scaling. Our attention model accurately describes the standard key-query attention in a single-layer transformer, making this work a significant first step towards a better understanding of the initialisation dynamics in the multi-layer case.
- Abstract(参考訳): 注意層は、現在の最先端のニューラルネットワークアーキテクチャであるトランスフォーマーのコアコンポーネントである。
しかし、‘softmaxx-based attention’ はトランスフォーマーの訓練性を危険にさらす。
textit{at initialization} でさえ、ランダムネットワークを通しての信号と勾配の伝播は病理学的であり、結果として既知の問題が発生する。
(i)勾配の消滅・拡大
(ii) \textit{rank collapse} すなわち、すべてのトークンが単一の表現である \textit{with depth} に収束するとき。
本稿では, ランダムマトリクスの観点からのtextit{attention-only} 変圧器の信号伝搬について検討し, その発生源を解明し, 新たな現象を公表する。
(iii) ランク崩壊 \textit{in width}。
Random Markov行列による初期化における \softmaxx-based attention のモデル化により、注目行列の2つの最大の特異値の間の \textit{spectral gap} が原因となることが明らかとなった。
(三) 逆に悪化する
(i)および
(II)。
この知見に基づいて,スペクトルギャップを除去し,広帯域におけるランク崩壊を解消する,新しい,シンプルかつ実用的な解法を提案する。
さらに,本研究の成果を検証し,既定パラメータスケーリングの修正を動機とした実験を通じて,提案手法のトレーニング効果について考察する。
注意モデルでは, 単一層トランスにおける標準キークエリアテンションを正確に記述し, マルチ層ケースにおける初期化のダイナミクスをよりよく理解するための重要な第一歩となる。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - On the Role of Attention Masks and LayerNorm in Transformers [55.81177251872377]
自己注意はトランスの鍵となるメカニズムである。
近年の研究では、純粋な自己意識は階級崩壊の度合いが増すことが示されている。
論文 参考訳(メタデータ) (2024-05-29T05:41:28Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Scaling ResNets in the Large-depth Regime [11.374578778690623]
Deep ResNetは、機械学習タスクで最先端の結果を達成するために認識されている。
Deep ResNetsは、勾配の消滅や爆発を避けるために慎重に設計する必要があるトレーニング手順に依存している。
この問題を緩和する方法については合意が得られていないが、広く議論されている戦略は、各レイヤの出力を$alpha_L$でスケーリングすることである。
論文 参考訳(メタデータ) (2022-06-14T15:49:10Z) - Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。
トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文 参考訳(メタデータ) (2022-06-07T09:07:24Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - Unified Field Theory for Deep and Recurrent Neural Networks [56.735884560668985]
本稿では,再帰的ネットワークと深層ネットワークの両方に対する平均場理論の統一的,体系的な導出について述べる。
平均場理論への収束は、ディープネットワークよりもリカレントネットワークの方が典型的に遅い。
提案手法はガウス過程が1/n$の体系的展開の最下位次数であることを示す。
論文 参考訳(メタデータ) (2021-12-10T15:06:11Z) - A Geometric Analysis of Neural Collapse with Unconstrained Features [40.66585948844492]
Neural;Collapse$の最初のグローバル最適化ランドスケープ分析を提供します。
この現象は、トレーニングの終末期におけるニューラルネットワークのラスト層分類器と特徴に現れる。
論文 参考訳(メタデータ) (2021-05-06T00:00:50Z) - Batch Normalization Provably Avoids Rank Collapse for Randomly
Initialised Deep Networks [15.499554384036673]
バッチ正規化は線形ネットワークとReLUネットワークの両方のランク崩壊を避ける効果的な戦略である。
我々は、深い線形ネットワークにおいて有意義な下位ランクを導出する。
経験的に、このランクのロバスト性はReLUネットに一般化されることを実証する。
論文 参考訳(メタデータ) (2020-03-03T17:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。