論文の概要: Rank-Aware Spectral Bounds on Attention Logits for Stable Low-Precision Training
- arxiv url: http://arxiv.org/abs/2602.18851v1
- Date: Sat, 21 Feb 2026 14:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.355503
- Title: Rank-Aware Spectral Bounds on Attention Logits for Stable Low-Precision Training
- Title(参考訳): 安定低精度トレーニングのための注意ログのランクアウェアスペクトル境界
- Authors: Seyed Morteza Emadi,
- Abstract要約: 変圧器における注意スコアは、低精度トレーニングにおけるオーバーフローリスクを最大で支配する2次形式である$S_ij = x_itop M x_j / sqrtd_h$である。
相互作用行列 $M = WQ WKtop$ が階数 $r ll d$ を持つとき、$max_i,j|S_ij|$ は $exp(-d22/) となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention scores in transformers are bilinear forms $S_{ij} = x_i^\top M x_j / \sqrt{d_h}$ whose maximum magnitude governs overflow risk in low-precision training. We derive a \emph{rank-aware concentration inequality}: when the interaction matrix $M = W^Q W^{K\top}$ has rank $r \ll d$, tail probabilities for $\max_{i,j}|S_{ij}|$ decay as $\exp(-d^{2}α^{2}/(γr))$ rather than $\exp(-dα^{2})$, where $γ> 1$ is a typicality parameter. For transformer attention where $r = d_h$, this yields $8$--$28\times$ tighter concentration than rank-agnostic bounds in modern architectures. We apply this result to FP8 training, deriving \emph{geometry-aware scale factors} that provide principled overflow guarantees without observing activations. The method computes per-layer scales from the spectral norm $\|W^Q W^{K\top}\|_2$ via implicit power iteration, includes a grouped query attention formulation that avoids key expansion, and remains compatible with fused attention kernels. Across GPT-2 XL to Llama-2-70B, geometry-aware scaling eliminates overflows in transient scenarios where delayed scaling fails, while achieving comparable downstream MMLU accuracy.
- Abstract(参考訳): 変換器における注意スコアは、二線形形式 $S_{ij} = x_i^\top M x_j / \sqrt{d_h}$ である。
相互作用行列 $M = W^Q W^{K\top}$ が階数 $r \ll d$ を持つとき、$\max_{i,j}|S_{ij}|$減衰は $\exp(-d^{2}α^{2}/(γr))$ ではなく $\exp(-dα^{2})$ である。
r = d_h$ となる変圧器の注意を向けると、現代の建築におけるランクに依存しない境界よりも 8$--$28\times$ の厳密な集中が得られる。
この結果をFP8トレーニングに適用し、活性化を観測することなく、原理化されたオーバーフロー保証を提供する「emph{geometry-aware scale factor}」を導出する。
この方法は、暗黙のパワー反復によるスペクトルノルム$\|W^Q W^{K\top}\|_2$から層単位のスケールを計算し、キー展開を回避し、融合されたアテンションカーネルとの互換性を維持したグループ化されたクエリアテンションの定式化を含む。
GPT-2 XLからLlama-2-70Bまで、幾何認識スケーリングは遅延スケーリングが失敗する一時的なシナリオにおけるオーバーフローを排除し、下流MMLUの精度は同等である。
関連論文リスト
- Sublinear Time Quantum Algorithm for Attention Approximation [13.665266438908533]
本稿では,$mathrmAtt(Q, K, V)$の任意の行を,Q, K, V$への行クエリのみを用いて近似する量子データ構造を提案する。
我々のアルゴリズムはこれらの行列を$widetildeOleft( -1 n0.5 left( s_2.5 + s_1.5 d + 0.5 d right)$ timeで前処理する。
論文 参考訳(メタデータ) (2026-01-31T19:33:52Z) - Numerical Fragility in Transformers: A Layer-wise Theory for Explaining, Forecasting, and Mitigating Instability [0.0]
エラーがいつどこで発生するかを予測する一階のモジュールワイズ理論を提示する。
自己注意のために、3つの解釈可能な診断に分解する層間境界を導出する。
また、精度と幅を意識したLayerNormインジケータ$rho_rm LN$も導入する。
論文 参考訳(メタデータ) (2025-10-17T01:03:02Z) - Closed-form $\ell_r$ norm scaling with data for overparameterized linear regression and diagonal linear networks under $\ell_p$ bias [0.0]
パラメータノルムの族をスケールするために、統一的で高確率な特徴を与える。
次に、降下によって訓練された線形ネットワークについて研究する。
論文 参考訳(メタデータ) (2025-09-25T13:59:22Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Computationally Efficient Horizon-Free Reinforcement Learning for Linear
Mixture MDPs [111.75736569611159]
線形混合MDPのための計算効率のよい初めての地平線フリーアルゴリズムを提案する。
我々のアルゴリズムは、未知の遷移力学に対する重み付き最小二乗推定器に適応する。
これにより、$sigma_k2$'sが知られているときに、この設定で最もよく知られたアルゴリズムも改善される。
論文 参考訳(メタデータ) (2022-05-23T17:59:18Z) - On the Self-Penalization Phenomenon in Feature Selection [69.16452769334367]
カーネル群に基づく暗黙の空間性誘導機構について述べる。
アプリケーションとしては、この疎結合誘導機構を使用して、特徴選択に一貫性のあるアルゴリズムを構築します。
論文 参考訳(メタデータ) (2021-10-12T09:36:41Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Entanglement scaling for $\lambda\phi_2^4$ [0.0]
次数パラメータ$phi$、相関長$xi$、および$phi3$のような量と絡み合いエントロピーが有用な二重スケーリング特性を示すことを示す。
臨界点に対して$alpha_c=11.09698(31)$という値が見つかる。
論文 参考訳(メタデータ) (2021-04-21T14:43:12Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov
Decision Processes [91.38793800392108]
本稿では,マルコフ決定過程(MDP)の遷移確率核が線形混合モデルである線形関数近似による強化学習について検討する。
上記の線形混合 MDP に対して$textUCRL-VTR+$ という線形関数近似を用いた計算効率の良い新しいアルゴリズムを提案する。
我々の知る限り、これらは線形関数近似を持つRLのための計算効率が良く、ほぼ最小のアルゴリズムである。
論文 参考訳(メタデータ) (2020-12-15T18:56:46Z) - Robust Interference Management for SISO Systems with Multiple
Over-the-Air Computations [16.52374405363812]
複素数値を共有するMAC上での総和のオーバー・ザ・エア計算について考察する。
適切なTx-Rxスケーリング因子を見つけることは、$s_n$の計算における低エラーとそれによって引き起こされる干渉との間にバランスをとる。
論文 参考訳(メタデータ) (2020-04-21T11:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。