Fugu-MT 論文翻訳(概要): Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Attention Layers

論文の概要: Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Attention Layers

arxiv url: http://arxiv.org/abs/2410.07799v2
Date: Mon, 03 Feb 2025 17:45:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:53.252196
Title: Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Attention Layers
Title（参考訳）: Mind the Gap: 注意層におけるランク崩壊と信号伝搬のスペクトル解析
Authors: Alireza Naderi, Thiziri Nait Saada, Jared Tanner,
Abstract要約: ソフトマックスに基づく注意の代替は、効果的な情報の流れを妨げる傾向があるためである。我々は、注目行列の2つの最大の特異勾配の間のスペクトルギャップを明らかにするために厳密な解析を行う。外れ値を取り除き、広さのランク崩壊を解消する新しい簡単な実用的解法を提案する。
参考スコア（独自算出の注目度）: 3.686808512438363
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Attention layers are the core component of transformers, the current state-of-the-art neural network architecture. Alternatives to softmax-based attention are being explored due to its tendency to hinder effective information flow. Even at initialisation, it remains poorly understood why the propagation of signals and gradients through these random networks can be pathological, resulting in issues known as (i) vanishing/exploding gradients and (ii) rank collapse $\textit{in depth}$, i.e. when all tokens converge to a single representation along layers. While rank collapse in depth naturally arises from repeated matrix multiplications$\unicode{x2013}$a common pattern across various architectures$\unicode{x2013}$we identify an additional and previously unknown challenge unique to softmax attention layers: (iii) rank collapse $\textit{in width}$, which occurs as the context length increases. Using Random Matrix Theory, we conduct a rigorous analysis that uncovers a spectral gap between the two largest singular values of the attention matrix as the cause of (iii), which in turn exacerbates (i) and (ii). Building on this insight, we propose a novel yet simple practical solution to mitigate rank collapse in width by removing the outlier eigenvalue(s). Our theoretical framework offers a fresh perspective on recent practical studies, such as (Ye et al., 2024; Ali et al., 2023), whose ad hoc solutions can now be interpreted as implicit efforts to address the spectral gap issue. This work provides valuable theoretical support for ongoing large-scale empirical research, bringing theory and practice one step closer in the understanding of transformers.
Abstract（参考訳）: 注意層は、現在の最先端のニューラルネットワークアーキテクチャであるトランスフォーマーのコアコンポーネントである。ソフトマックスに基づく注意の代替は、効果的な情報の流れを妨げる傾向があるため、検討されている。初期化時でさえ、これらのランダムネットワークによる信号や勾配の伝播がなぜ病理学的であり得るのかは、いまだに理解されていない。 (i)勾配の消滅・拡大 (ii) rank collapse $\textit{in depth}$、すなわち、すべてのトークンが層に沿って単一の表現に収束するとき。階数崩壊が自然に起こるのは、反復行列乗法$\unicode{x2013}$a common pattern across various architectures$\unicode{x2013}$we identified an additional and previously unknown challenge to unique to softmax attention layer。 (iii)ランク崩壊$\textit{in width}$。ランダム行列理論を用いて、注意行列の2つの最大の特異値の間のスペクトルギャップを明らかにする厳密な解析を行う。 (三)次々に悪化する (i)および (II)。この知見に基づいて,外乱固有値(s)を除去することにより,ランク崩壊の幅を緩和する,新しい実用的手法を提案する。我々の理論的な枠組みは、近年の実践研究(Ye et al , 2024; Ali et al , 2023)に新たな視点を与え、そこでは、スペクトルギャップ問題に対処するための暗黙の努力として、アドホックな解が解釈できる。この研究は、現在進行中の大規模実証研究に価値ある理論的支援を提供し、変圧器の理解に理論と実践が一歩近づいた。

関連論文リスト

Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文参考訳（メタデータ） (2024-09-09T18:10:26Z)
Unveiling and Controlling Anomalous Attention Distribution in Transformers [8.456319173083315]
ウェイバー現象は、要素が情報への貢献に影響を与えることなく過剰な注意を吸収することを可能にする。特定のモデルでは、位置符号化と注意パターンの違いにより、モデルによるウェイブラー要素の選択は2つの方法に分類できることがわかった。
論文参考訳（メタデータ） (2024-06-26T11:53:35Z)
Local to Global: Learning Dynamics and Effect of Initialization for Transformers [20.02103237675619]
我々は一階マルコフ連鎖と単層変圧器に焦点をあてる。我々は,次世代の予測損失に基づいてトレーニングしたトランスフォーマーパラメータが,グローバルあるいはローカルのミニマに収束可能であることを証明した。
論文参考訳（メタデータ） (2024-06-05T08:57:41Z)
On the Role of Attention Masks and LayerNorm in Transformers [55.81177251872377]
自己注意はトランスの鍵となるメカニズムである。近年の研究では、純粋な自己意識は階級崩壊の度合いが増すことが示されている。
論文参考訳（メタデータ） (2024-05-29T05:41:28Z)
Texture, Shape and Order Matter: A New Transformer Design for Sequential DeepFake Detection [57.100891917805086]
シーケンシャルディープフェイク検出は、順番に操作シーケンスを予測する新しいタスクである。本稿では, テクスチャ, 形状, 操作順序の3つの視点を探索し, TSOM と呼ばれる新しいトランスフォーマーの設計について述べる。
論文参考訳（メタデータ） (2024-04-22T04:47:52Z)
On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文参考訳（メタデータ） (2023-11-02T20:03:05Z)
A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。 SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文参考訳（メタデータ） (2023-03-06T14:31:09Z)
Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文参考訳（メタデータ） (2022-12-05T14:47:52Z)
Scaling ResNets in the Large-depth Regime [11.374578778690623]
Deep ResNetは、機械学習タスクで最先端の結果を達成するために認識されている。 Deep ResNetsは、勾配の消滅や爆発を避けるために慎重に設計する必要があるトレーニング手順に依存している。この問題を緩和する方法については合意が得られていないが、広く議論されている戦略は、各レイヤの出力を$alpha_L$でスケーリングすることである。
論文参考訳（メタデータ） (2022-06-14T15:49:10Z)
Signal Propagation in Transformers: Theoretical Perspectives and the Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文参考訳（メタデータ） (2022-06-07T09:07:24Z)
Unraveling Attention via Convex Duality: Analysis and Interpretations of Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文参考訳（メタデータ） (2022-05-17T04:01:15Z)
Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文参考訳（メタデータ） (2022-02-17T12:20:52Z)
Unified Field Theory for Deep and Recurrent Neural Networks [56.735884560668985]
本稿では,再帰的ネットワークと深層ネットワークの両方に対する平均場理論の統一的,体系的な導出について述べる。平均場理論への収束は、ディープネットワークよりもリカレントネットワークの方が典型的に遅い。提案手法はガウス過程が1/n$の体系的展開の最下位次数であることを示す。
論文参考訳（メタデータ） (2021-12-10T15:06:11Z)
A Fourier-based Framework for Domain Generalization [82.54650565298418]
ドメインの一般化は、複数のソースドメインから伝達可能な知識を学習して、未確認のターゲットドメインに一般化することでこの問題に対処することを目的としている。本稿では、ドメイン一般化のための新しいフーリエに基づく視点を紹介する。 3つのベンチマーク実験により,提案手法は領域一般化のための最先端性能を実現することができることを示した。
論文参考訳（メタデータ） (2021-05-24T06:50:30Z)
A Geometric Analysis of Neural Collapse with Unconstrained Features [40.66585948844492]
Neural;Collapse$の最初のグローバル最適化ランドスケープ分析を提供します。この現象は、トレーニングの終末期におけるニューラルネットワークのラスト層分類器と特徴に現れる。
論文参考訳（メタデータ） (2021-05-06T00:00:50Z)
Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文参考訳（メタデータ） (2020-06-05T17:09:16Z)
Batch Normalization Provably Avoids Rank Collapse for Randomly Initialised Deep Networks [15.499554384036673]
バッチ正規化は線形ネットワークとReLUネットワークの両方のランク崩壊を避ける効果的な戦略である。我々は、深い線形ネットワークにおいて有意義な下位ランクを導出する。経験的に、このランクのロバスト性はReLUネットに一般化されることを実証する。
論文参考訳（メタデータ） (2020-03-03T17:21:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。