論文の概要: Rank-Aware Spectral Bounds on Attention Logits for Stable Low-Precision Training
- arxiv url: http://arxiv.org/abs/2602.18851v1
- Date: Sat, 21 Feb 2026 14:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.355503
- Title: Rank-Aware Spectral Bounds on Attention Logits for Stable Low-Precision Training
- Title(参考訳): 安定低精度トレーニングのための注意ログのランクアウェアスペクトル境界
- Authors: Seyed Morteza Emadi,
- Abstract要約: 変圧器における注意スコアは、低精度トレーニングにおけるオーバーフローリスクを最大で支配する2次形式である$S_ij = x_itop M x_j / sqrtd_h$である。
相互作用行列 $M = WQ WKtop$ が階数 $r ll d$ を持つとき、$max_i,j|S_ij|$ は $exp(-d22/) となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention scores in transformers are bilinear forms $S_{ij} = x_i^\top M x_j / \sqrt{d_h}$ whose maximum magnitude governs overflow risk in low-precision training. We derive a \emph{rank-aware concentration inequality}: when the interaction matrix $M = W^Q W^{K\top}$ has rank $r \ll d$, tail probabilities for $\max_{i,j}|S_{ij}|$ decay as $\exp(-d^{2}α^{2}/(γr))$ rather than $\exp(-dα^{2})$, where $γ> 1$ is a typicality parameter. For transformer attention where $r = d_h$, this yields $8$--$28\times$ tighter concentration than rank-agnostic bounds in modern architectures. We apply this result to FP8 training, deriving \emph{geometry-aware scale factors} that provide principled overflow guarantees without observing activations. The method computes per-layer scales from the spectral norm $\|W^Q W^{K\top}\|_2$ via implicit power iteration, includes a grouped query attention formulation that avoids key expansion, and remains compatible with fused attention kernels. Across GPT-2 XL to Llama-2-70B, geometry-aware scaling eliminates overflows in transient scenarios where delayed scaling fails, while achieving comparable downstream MMLU accuracy.
- Abstract(参考訳): 変換器における注意スコアは、二線形形式 $S_{ij} = x_i^\top M x_j / \sqrt{d_h}$ である。
相互作用行列 $M = W^Q W^{K\top}$ が階数 $r \ll d$ を持つとき、$\max_{i,j}|S_{ij}|$減衰は $\exp(-d^{2}α^{2}/(γr))$ ではなく $\exp(-dα^{2})$ である。
r = d_h$ となる変圧器の注意を向けると、現代の建築におけるランクに依存しない境界よりも 8$--$28\times$ の厳密な集中が得られる。
この結果をFP8トレーニングに適用し、活性化を観測することなく、原理化されたオーバーフロー保証を提供する「emph{geometry-aware scale factor}」を導出する。
この方法は、暗黙のパワー反復によるスペクトルノルム$\|W^Q W^{K\top}\|_2$から層単位のスケールを計算し、キー展開を回避し、融合されたアテンションカーネルとの互換性を維持したグループ化されたクエリアテンションの定式化を含む。
GPT-2 XLからLlama-2-70Bまで、幾何認識スケーリングは遅延スケーリングが失敗する一時的なシナリオにおけるオーバーフローを排除し、下流MMLUの精度は同等である。
関連論文リスト
- Numerical Fragility in Transformers: A Layer-wise Theory for Explaining, Forecasting, and Mitigating Instability [0.0]
エラーがいつどこで発生するかを予測する一階のモジュールワイズ理論を提示する。
自己注意のために、3つの解釈可能な診断に分解する層間境界を導出する。
また、精度と幅を意識したLayerNormインジケータ$rho_rm LN$も導入する。
論文 参考訳(メタデータ) (2025-10-17T01:03:02Z) - Closed-form $\ell_r$ norm scaling with data for overparameterized linear regression and diagonal linear networks under $\ell_p$ bias [0.0]
パラメータノルムの族をスケールするために、統一的で高確率な特徴を与える。
次に、降下によって訓練された線形ネットワークについて研究する。
論文 参考訳(メタデータ) (2025-09-25T13:59:22Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - Computationally Efficient Horizon-Free Reinforcement Learning for Linear
Mixture MDPs [111.75736569611159]
線形混合MDPのための計算効率のよい初めての地平線フリーアルゴリズムを提案する。
我々のアルゴリズムは、未知の遷移力学に対する重み付き最小二乗推定器に適応する。
これにより、$sigma_k2$'sが知られているときに、この設定で最もよく知られたアルゴリズムも改善される。
論文 参考訳(メタデータ) (2022-05-23T17:59:18Z) - Entanglement scaling for $\lambda\phi_2^4$ [0.0]
次数パラメータ$phi$、相関長$xi$、および$phi3$のような量と絡み合いエントロピーが有用な二重スケーリング特性を示すことを示す。
臨界点に対して$alpha_c=11.09698(31)$という値が見つかる。
論文 参考訳(メタデータ) (2021-04-21T14:43:12Z) - Robust Interference Management for SISO Systems with Multiple
Over-the-Air Computations [16.52374405363812]
複素数値を共有するMAC上での総和のオーバー・ザ・エア計算について考察する。
適切なTx-Rxスケーリング因子を見つけることは、$s_n$の計算における低エラーとそれによって引き起こされる干渉との間にバランスをとる。
論文 参考訳(メタデータ) (2020-04-21T11:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。