論文の概要: SageBwd: A Trainable Low-bit Attention
- arxiv url: http://arxiv.org/abs/2603.02170v1
- Date: Mon, 02 Mar 2026 18:39:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.032104
- Title: SageBwd: A Trainable Low-bit Attention
- Title(参考訳): SageBwd: トレーニング可能な低ビットアテンション
- Authors: Jintao Zhang, Marco Chen, Haoxu Wang, Kai Jiang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu,
- Abstract要約: SageAttentionのような低ビットの注意は、モデル推論を加速するための効果的なアプローチとして現れてきたが、トレーニングへの適用性はまだよく分かっていない。
SageBwdは、微調整性能を維持しながら、7つの注意行列乗算のうち6つを量子化する、トレーニング可能なINT8アテンションである。
我々は,SageBwdが事前トレーニング中に全精度の注意と一致することを示す。
- 参考スコア(独自算出の注目度): 78.55275361627358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-bit attention, such as SageAttention, has emerged as an effective approach for accelerating model inference, but its applicability to training remains poorly understood. In prior work, we introduced SageBwd, a trainable INT8 attention that quantizes six of seven attention matrix multiplications while preserving fine-tuning performance. However, SageBwd exhibited a persistent performance gap to full-precision attention (FPA) during pre-training. In this work, we investigate why this gap occurs and demonstrate that SageBwd matches full-precision attention during pretraining. Through experiments and theoretical analysis, we reach a few important insights and conclusions: (i) QK-norm is necessary for stable training at large tokens per step, (ii) quantization errors primarily arise from the backward-pass score gradient dS, (iii) reducing tokens per step enables SageBwd to match FPA performance in pre-training, and (iv) K-smoothing remains essential for training stability, while Q-smoothing provides limited benefit during pre-training.
- Abstract(参考訳): SageAttentionのような低ビットの注意は、モデル推論を加速するための効果的なアプローチとして現れてきたが、トレーニングへの適用性はまだよく分かっていない。
SageBwdは、微調整性能を保ちながら、7つの注意行列乗算のうち6つを定量化する、トレーニング可能なINT8アテンションである。
しかし、SageBwdは事前トレーニング中にフル精度アテンション(FPA)に持続的なパフォーマンスギャップを示した。
そこで本研究では,SageBwdが事前学習中に全精度の注意と一致することを示す。
実験と理論分析を通じて、我々はいくつかの重要な洞察と結論に達した。
(i)QKノルムは、ステップごとに大きなトークンで安定したトレーニングを行うのに必要である。
(ii)量子化誤差は、主に後方通過スコア勾配dSから生じる。
3) ステップ当たりのトークンの削減により、事前トレーニング時のFPAパフォーマンスにマッチするSageBwdが可能となり、
(4)K-smoothingはトレーニングの安定性に必須であり,Q-smoothingは事前トレーニングにおいて限られた利益をもたらす。
関連論文リスト
- Mid-Think: Training-Free Intermediate-Budget Reasoning via Token-Level Triggers [16.452437424233484]
先行するOKy'のトークンは推論動作を誘導し,/think>'に続く新しいパターンはそれを抑制していることを示す。
中間予算推論を実現するためにこれらのトリガを組み合わせたトレーニングフリープロンプトフォーマットであるMid-Thinkを提案する。
論文 参考訳(メタデータ) (2026-01-11T19:19:39Z) - Assessing the Potential for Catastrophic Failure in Dynamic Post-Training Quantization [3.437656066916039]
後トレーニング量子化(PTQ)は、ニューラルネットワークの計算複雑性とメモリ使用量の削減に有効なツールとして登場した。
推論で経験した入力の分布に応じて劇的な性能低下が起こる可能性がある。
論文 参考訳(メタデータ) (2025-10-02T18:13:06Z) - Reinforcement Mid-Training [16.826401071555704]
トレーニング中における効率,適応性,統一的な強化のためのフレームワークを提案する。
RMTは,言語モデリングにおける推論長の21%に過ぎず,+64.91%の性能向上を実現している。
また, 強化中等訓練後に得られたチェックポイントは, その後のトレーニングに有効であり, 数学領域では+18.76%の改善が得られた。
論文 参考訳(メタデータ) (2025-09-29T07:21:24Z) - Curriculum Abductive Learning [50.50222437082385]
帰納的学習(ABL)は、ループ内の論理的推論と機械学習を統合する。
誘拐の非決定性のため、トレーニングプロセスは不安定性に悩まされることが多い。
本稿では,ABLの学習課題に対処するため,C-ABL(Curriculum Abductive Learning)を提案する。
論文 参考訳(メタデータ) (2025-05-18T07:27:35Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Toward Understanding BERT-Like Pre-Training for DNA Foundation Models [78.48760388079523]
既存のDNA配列の事前訓練方法は、NLPからのBERT事前訓練の直接的な採用に依存している。
マスク境界を連続的に拡張することにより,BERTライクな事前学習作業の難易度を徐々に向上させるRandomMaskという新しい手法を提案する。
RandomMaskは、マシューのエピジェネティック・マーク・予測の相関係数の68.16%を突破し、ベースラインの19.85%を突破した。
論文 参考訳(メタデータ) (2023-10-11T16:40:57Z) - On Transfer of Adversarial Robustness from Pretraining to Downstream
Tasks [1.8900691517352295]
下流タスクにおける線形予測子のロバスト性は、その基盤となる表現のロバスト性によって制約できることを示す。
本結果は,適応後の信頼性向上のために,表現関数の要求を特徴付けるための最初のステップを提供する。
論文 参考訳(メタデータ) (2022-08-07T23:00:40Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z) - Exact Asymptotics for Linear Quadratic Adaptive Control [6.287145010885044]
最も単純な非帯域強化学習問題である線形二次制御(LQAC)について検討する。
ステップワイズ更新LQACアルゴリズムの残差,推定誤差,予測誤差の式を導出する。
安定系と不安定系のシミュレーションにおいて、我々の理論はアルゴリズムの有限サンプル挙動を著しくよく記述している。
論文 参考訳(メタデータ) (2020-11-02T22:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。