論文の概要: Gaussian Equivalence for Self-Attention: Asymptotic Spectral Analysis of Attention Matrix
- arxiv url: http://arxiv.org/abs/2510.06685v1
- Date: Wed, 08 Oct 2025 06:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.330872
- Title: Gaussian Equivalence for Self-Attention: Asymptotic Spectral Analysis of Attention Matrix
- Title(参考訳): 自己注意のためのガウス等価性:注意行列の漸近スペクトル解析
- Authors: Tomohiro Hayase, Benoît Collins, Ryo Karakida,
- Abstract要約: 自己注意層は、現代のディープニューラルネットワークの基本的な構成要素となっている。
本稿では,注目行列の特異値スペクトルを厳密に解析し,注目のための最初のガウス同値性結果を確立する。
- 参考スコア(独自算出の注目度): 13.866041299126207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention layers have become fundamental building blocks of modern deep neural networks, yet their theoretical understanding remains limited, particularly from the perspective of random matrix theory. In this work, we provide a rigorous analysis of the singular value spectrum of the attention matrix and establish the first Gaussian equivalence result for attention. In a natural regime where the inverse temperature remains of constant order, we show that the singular value distribution of the attention matrix is asymptotically characterized by a tractable linear model. We further demonstrate that the distribution of squared singular values deviates from the Marchenko-Pastur law, which has been believed in previous work. Our proof relies on two key ingredients: precise control of fluctuations in the normalization term and a refined linearization that leverages favorable Taylor expansions of the exponential. This analysis also identifies a threshold for linearization and elucidates why attention, despite not being an entrywise operation, admits a rigorous Gaussian equivalence in this regime.
- Abstract(参考訳): 自己注意層は、現代のディープニューラルネットワークの基本的な構成要素となっているが、その理論的理解は、特にランダム行列理論の観点から制限されている。
本研究では,注目行列の特異値スペクトルの厳密な解析を行い,注意のための最初のガウス同値性結果を確立する。
逆温度が一定に保たれた自然条件下では、注意行列の特異値分布は、トラクタブル線形モデルによって漸近的に特徴づけられることを示す。
さらに、以前の研究で信じられていたマルテンコ・パストゥル法から、平方特異値の分布が逸脱することを示した。
我々の証明は、正規化項におけるゆらぎの正確な制御と、指数関数の好ましいテイラー展開を利用する洗練された線形化という2つの重要な要素に依存している。
この分析はまた、線形化のしきい値を特定し、なぜ注意が入射操作ではないにもかかわらず、この状態において厳密なガウス同値性を認めるのかを解明する。
関連論文リスト
- Inductive Bias and Spectral Properties of Single-Head Attention in High Dimensions [26.597272916325537]
合成高次元シークエンスタスクを訓練した単一頭部拘束層における経験的リスクについて検討した。
トレーニングやテストエラーのシャープを導き、ウェイトとリカバリしきい値を特定し、学習したウェイトのスペクトル分布の制限を特徴付ける。
論文 参考訳(メタデータ) (2025-09-29T15:19:31Z) - Critical behavior of the Schwinger model via gauge-invariant VUMPS [0.0]
変分一様行列積状態(VUMPS)アルゴリズムとゲージ不変行列積 ansatz を組み合わせた格子シュウィンガーモデルについて検討した。
同時臨界・極限連続体におけるスケーリングを解析し、データの崩壊が顕著な精度でIsingクラスと一致していることを確認する。
論文 参考訳(メタデータ) (2024-12-04T18:59:18Z) - High-Dimensional Kernel Methods under Covariate Shift: Data-Dependent Implicit Regularization [83.06112052443233]
本稿では,共変量シフト下での高次元におけるカーネルリッジの回帰について検討する。
バイアス分散分解により、再重み付け戦略が分散を減少させることができることを理論的に証明する。
偏見について,任意の偏見の正則化を解析し,偏見が正則化の異なる尺度で非常に異なる振る舞いをすることができることを示す。
論文 参考訳(メタデータ) (2024-06-05T12:03:27Z) - Entrywise error bounds for low-rank approximations of kernel matrices [55.524284152242096]
切り抜き固有分解を用いて得られたカーネル行列の低ランク近似に対するエントリーワイド誤差境界を導出する。
重要な技術的革新は、小さな固有値に対応するカーネル行列の固有ベクトルの非局在化結果である。
我々は、合成および実世界のデータセットの集合に関する実証的研究により、我々の理論を検証した。
論文 参考訳(メタデータ) (2024-05-23T12:26:25Z) - Improving Expressive Power of Spectral Graph Neural Networks with Eigenvalue Correction [55.57072563835959]
本稿では,繰り返し入力される固有値の制約からフィルタを解放する固有値補正手法を提案する。
具体的には、提案した固有値補正戦略により、固有値の均一分布が向上し、フィルタの適合能力と表現力が向上する。
論文 参考訳(メタデータ) (2024-01-28T08:12:00Z) - Heavy-Tailed Regularization of Weight Matrices in Deep Neural Networks [8.30897399932868]
鍵となる発見は、ニューラルネットワークの一般化性能が、その重み行列のスペクトルにおける重みの程度と関連していることを示している。
重み付き正則化と呼ばれる新しい正則化手法を導入し、正則化により重み付きスペクトルを明示的に促進する。
重み付き正規化が一般化性能の点で従来の正規化技術より優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-04-06T07:50:14Z) - Spectral Regularization: an Inductive Bias for Sequence Modeling [7.365884062005811]
本稿では,一意な帰納バイアスをシーケンスモデルに付加するスペクトル正則化手法を提案する。
ハンケル行列と正規文法の基本的な関係から、スペクトル正則化器としてハンケル行列のトレースノルム(英語版)を用いることを提案する。
論文 参考訳(メタデータ) (2022-11-04T04:07:05Z) - Relative Error Bound Analysis for Nuclear Norm Regularized Matrix Completion [101.83262280224729]
我々は、原子核ノルム正規化行列補完に対する相対誤差を開発する。
未知行列の最適低ランク近似を回復するための相対上界を導出する。
論文 参考訳(メタデータ) (2015-04-26T13:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。