論文の概要: Exact Attention Sensitivity and the Geometry of Transformer Stability
- arxiv url: http://arxiv.org/abs/2602.18849v1
- Date: Sat, 21 Feb 2026 14:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.352589
- Title: Exact Attention Sensitivity and the Geometry of Transformer Stability
- Title(参考訳): 変圧器安定性の厳密な注意感度と幾何
- Authors: Seyed Morteza Emadi,
- Abstract要約: 現代のAIの力にもかかわらず、トランスフォーマーは神秘的に訓練に不安定なままだ。
我々は、なぜPre-LayerNormが機能するのか、なぜDeepNormが$N-1/4$スケーリングを使っているのか、なぜウォームアップが必要なのかを説明する安定性理論を開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite powering modern AI, transformers remain mysteriously brittle to train. We develop a stability theory that explains why pre-LayerNorm works, why DeepNorm uses $N^{-1/4}$ scaling, and why warmup is necessary, all from first principles. Our framework has two pillars: (1) We derive the \emph{exact} operator norm of the softmax Jacobian, $\|J_{softmax}(u/τ)\|_{\infty\to 1} = θ(p)/τ$, where the balanced-mass factor $θ(p)\in[0,1]$ quantifies attention sensitivity. (2) We introduce a block-$\infty$/RMS geometry aligned with tokenwise computation, yielding Lipschitz bounds independent of sequence length. Using this framework, we prove that pre-LN preserves identity gradient paths while post-LN compounds LayerNorm Jacobians exponentially with depth, and we show that DeepNorm's $N^{-1/4}$ emerges from the quartic structure of attention's four projection matrices. We validate our theory on 774M-parameter models and find that, contrary to the intuition that attention sharpens during training to reduce sensitivity, $θ(p) \approx 1$ persists throughout. Transformer stability arises entirely from architectural gradient flow, not from attention dynamics. This finding changes how we reason about training: the architecture itself must handle sensitivity, not learned attention patterns.
- Abstract(参考訳): 現代のAIの力にもかかわらず、トランスフォーマーは神秘的に訓練に不安定なままだ。
我々は、なぜPre-LayerNormが機能するのか、なぜDeepNormが$N^{-1/4}のスケーリングを使うのか、そしてなぜウォームアップが必要なのかを第一原理から説明する安定性理論を開発する。
われわれのフレームワークは2つの柱を持つ: (1) ソフトマックスヤコビアンの 'emph{exact} 作用素ノルム$\|J_{softmax}(u/τ)\|_{\infty\to 1} = θ(p)/τ$, ここで、平衡質量因子 $θ(p)\in[0,1]$ は注意感度を定量化する。
2) ブロック$\infty$/RMS幾何をトークン演算と整合させ, シーケンス長に依存しないリプシッツ境界を求める。
この枠組みを用いることで、プレLNはアイデンティティ勾配経路を保ち、後LN化合物LayerNorm Jacobiansは指数関数的に深さを保ち、DeepNormの$N^{-1/4}$はアテンションの4つの射影行列のクォート構造から現れることを示す。
この理論を774Mパラメータモデルで検証し、感度を下げるために注意が集中する直感とは対照的に、$θ(p) \approx 1$は持続することを示した。
変圧器の安定性は、注意力のダイナミクスからではなく、アーキテクチャ上の勾配の流れから生じる。
この発見は、トレーニングに関する理由を変える。アーキテクチャ自体が注意パターンではなく、感度を扱う必要がある。
関連論文リスト
- Rank-Aware Spectral Bounds on Attention Logits for Stable Low-Precision Training [0.0]
変圧器における注意スコアは、低精度トレーニングにおけるオーバーフローリスクを最大で支配する2次形式である$S_ij = x_itop M x_j / sqrtd_h$である。
相互作用行列 $M = WQ WKtop$ が階数 $r ll d$ を持つとき、$max_i,j|S_ij|$ は $exp(-d22/) となる。
論文 参考訳(メタデータ) (2026-02-21T14:29:22Z) - Momentum Attention: The Physics of In-Context Learning and Spectral Forensics for Mechanistic Interpretability [0.0]
本稿では,運動性差分演算子を介して物理前兆を埋め込んだシンプレクティック拡張であるMomentum Attentionを紹介する。
直流(セマンティック)と交流(メカニスティック)の信号が高パスモーメントと相互作用するときに周波数帯域に分離することが証明された直交定理を定式化する。
論文 参考訳(メタデータ) (2026-02-03T21:31:36Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Numerical Fragility in Transformers: A Layer-wise Theory for Explaining, Forecasting, and Mitigating Instability [0.0]
エラーがいつどこで発生するかを予測する一階のモジュールワイズ理論を提示する。
自己注意のために、3つの解釈可能な診断に分解する層間境界を導出する。
また、精度と幅を意識したLayerNormインジケータ$rho_rm LN$も導入する。
論文 参考訳(メタデータ) (2025-10-17T01:03:02Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Precision of quantum simulation of all-to-all coupling in a local
architecture [0.0]
所望の相互作用の値である$J_ij$と2d回路のパラメータの相関関係を求める。
相対誤差が定数$epsilon$であるためには、量子ビット数でn6$になるエネルギースケールが必要である。
我々の証明はシュリーファー・ヴォルフ変換に基づいており、任意のハードウェアに一般化する。
論文 参考訳(メタデータ) (2023-02-05T18:54:28Z) - Optimal Query Complexities for Dynamic Trace Estimation [59.032228008383484]
我々は,行列がゆっくりと変化している動的環境において,正確なトレース推定に必要な行列ベクトルクエリ数を最小化する問題を考える。
我々は、$delta$失敗確率で$epsilon$エラーまで、すべての$m$トレースを同時に推定する新しいバイナリツリー要約手順を提供する。
我々の下界(1)は、静的な設定においてもフロベニウスノルム誤差を持つ行列ベクトル積モデルにおけるハッチンソン推定子の第一の厳密な境界を与え、(2)動的トレース推定のための最初の無条件下界を与える。
論文 参考訳(メタデータ) (2022-09-30T04:15:44Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Generalized moduli of continuity under irregular or random deformations via multiscale analysis [0.0]
多分解近似空間の信号に対して、$U_s$ at scale $s$, $L2$ in the regime $|tau|_Linfty/sll 1$。
不安定性は、|tau|_Linfty/sgg 1$ のときに起こり、成長速度に対して鋭い上限を与える。
論文 参考訳(メタデータ) (2021-04-24T16:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。