論文の概要: Attn-QAT: 4-Bit Attention With Quantization-Aware Training
- arxiv url: http://arxiv.org/abs/2603.00040v1
- Date: Mon, 09 Feb 2026 04:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:07.9843
- Title: Attn-QAT: 4-Bit Attention With Quantization-Aware Training
- Title(参考訳): Attn-QAT:量子化学習による4ビット注意
- Authors: Peiyuan Zhang, Matthew Noto, Wenxuan Tan, Chengquan Jiang, Will Lin, Wei Zhou, Hao Zhang,
- Abstract要約: 本稿では,4ビット量子化対応トレーニング(QAT)を注目する最初の体系的研究について述べる。
FP4フォワードパスと高精度Flashアテンション(FA)スタイルのバックワードパスを鼻で組み合わせた"ドロップイン"QATが,トレーニングの不安定性につながることがわかった。
我々は、FP4推論カーネルと同様に、Attn-QATを提案し、融合したTritonカーネルを実装した。
- 参考スコア(独自算出の注目度): 10.003298547571447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving reliable 4-bit attention is a prerequisite for end-to-end FP4 computation on emerging FP4-capable GPUs, yet attention remains the main obstacle due to FP4's tiny dynamic range and attention's heavy-tailed activations. This paper presents the first systematic study of 4-bit quantization-aware training (QAT) for attention. We find that "drop-in" QAT, which naively combines an FP4 forward pass with a high-precision Flash Attention (FA)-style backward pass, leads to training instability. We identify two key principles for stable FP4 attention: (1) matching low-precision recomputation of attention scores in the backward pass, and (2) resolving implicit precision assumptions in FA's gradient calculation. Based on these insights, we propose Attn-QAT and implement fused Triton kernels for training as well as FP4 inference kernels. Across diffusion and language models, Attn-QAT recovers the quality drop from FP4 attention without explicit outlier-mitigation heuristics used in prior FP4 attention, and delivers up to a 1.5x speedup on an RTX 5090. Video demos can be found at https://drive.google.com/drive/folders/190F6xbBDUF2kGQYIcXBt3ehSYij5jlim?usp=sharing.
- Abstract(参考訳): 信頼性の高い4ビットの注意を得ることは、新興のFP4対応GPU上でのエンドツーエンドのFP4計算の必須条件であるが、FP4の小さなダイナミックレンジとアテンションのヘビーテールアクティベーションが主な障害である。
本稿では,4ビット量子化対応トレーニング(QAT)を注目する最初の体系的研究について述べる。
FP4フォワードパスと高精度Flashアテンション(FA)スタイルのバックワードパスを鼻で組み合わせた"ドロップイン"QATが,トレーニングの不安定性につながることがわかった。
安定なFP4注意の鍵となる原則は,(1)後進パスにおける注意点の低精度再計算,(2)FAの勾配計算における暗黙の精度仮定の解法である。
これらの知見に基づき、我々は、FP4推論カーネルと同様に、Attn-QATと融合したTritonカーネルを実装した。
拡散モデルと言語モデル全体で、Attn-QATはFP4のアテンションから品質低下を回復し、FP4のアテンションで使用される明確な外乱緩和ヒューリスティックをなくし、RTX 5090で最大1.5倍のスピードアップを提供する。
ビデオデモはhttps://drive.google.com/drive/folders/190F6xBDUF2kGQYIcXBt3ehSYij5jlim?
usp=共有。
関連論文リスト
- Dissecting Outlier Dynamics in LLM NVFP4 Pretraining [46.10969678564592]
本研究は,NVFP4プレトレーニング中におけるアーキテクチャ内外層力学の経時的解析を行う。
我々は、Softmax Attention (SA) と比較して、Linear Attention (LA) はテンソルあたりの重みを減少させるが、ブロック量子化の下ではブロックレベルのスパイクが持続することを示した。
次に,NVFP4のトレーニングレシピであるCHONを開発し,QK後の操作保護と統合した。
論文 参考訳(メタデータ) (2026-02-02T12:50:27Z) - Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation [40.140261007984215]
我々は,NVFP4における量子化学習のための技術の現状を,マイクロスケールフォーマットのための新しい非バイアス量子化ルーチンによって改善する。
解析学的に、Quartet II はすべての行列乗法において一貫したより良い勾配推定を達成できることを示す。
論文 参考訳(メタデータ) (2026-01-30T10:39:11Z) - What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study [59.44848132298657]
ポストトレーニング量子化(PTQ)は通常、特に低ビット設定でのタスクの推論において、大きな精度低下のコストが伴う。
本研究では,推論モデルに対する量子化認識学習(QAT)の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-21T11:22:29Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - Quartet: Native FP4 Training Can Be Optimal for Large Language Models [27.800012997794987]
大規模言語モデル(LLM)モデルを低精度で直接訓練することは、計算コストに対処する方法を提供する。
NVIDIAの最近のBlackwellアーキテクチャは、FP4変種を使用した非常に低精度な操作を容易にする。
提案手法は, 高精度なFP4トレーニングを実現するための新しい手法である。
論文 参考訳(メタデータ) (2025-05-20T17:55:50Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。