論文の概要: DuQuant++: Fine-grained Rotation Enhances Microscaling FP4 Quantization
- arxiv url: http://arxiv.org/abs/2604.17789v2
- Date: Tue, 21 Apr 2026 07:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.929266
- Title: DuQuant++: Fine-grained Rotation Enhances Microscaling FP4 Quantization
- Title(参考訳): DuQuant++: マイクロスケーリングFP4量子化を実現する微細な回転
- Authors: Haokun Lin, Xinle Jia, Haobo Xu, Bingchen Yao, Xianglong Guo, Yichen Wu, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun,
- Abstract要約: そこで我々は,DuQuantをMXFP4フォーマットに適応させるDuQuant++を提案する。
MXFP4 W4A4量子化の下でのLLaMA-3ファミリーの実験は、DuQuant++が一貫して最先端のパフォーマンスを実現していることを示している。
- 参考スコア(独自算出の注目度): 47.19478866645546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The MXFP4 microscaling format, which partitions tensors into blocks of 32 elements sharing an E8M0 scaling factor, has emerged as a promising substrate for efficient LLM inference, backed by native hardware support on NVIDIA Blackwell Tensor Cores. However, activation outliers pose a unique challenge under this format: a single outlier inflates the shared block scale, compressing the effective dynamic range of the remaining elements and causing significant quantization error. Existing rotation-based remedies, including randomized Hadamard and learnable rotations, are data-agnostic and therefore unable to specifically target the channels where outliers concentrate. We propose DuQuant++, which adapts the outlier-aware fine-grained rotation of DuQuant to the MXFP4 format by aligning the rotation block size with the microscaling group size (B{=}32). Because each MXFP4 group possesses an independent scaling factor, the cross-block variance issue that necessitates dual rotations and a zigzag permutation in the original DuQuant becomes irrelevant, enabling DuQuant++ to replace the entire pipeline with a single outlier-aware rotation, which halves the online rotation cost while simultaneously smoothing the weight distribution. Extensive experiments on the LLaMA-3 family under MXFP4 W4A4 quantization show that DuQuant++ consistently achieves state-of-the-art performance. Our code is available at https://github.com/Hsu1023/DuQuant-v2.
- Abstract(参考訳): E8M0スケーリングファクタを共有する32要素のブロックにテンソルを分割するMXFP4マイクロスケーリングフォーマットは、NVIDIA Blackwell Tensor Coresのネイティブハードウェアサポートによって、効率的なLCM推論のための有望な基盤として登場した。
しかし、アクティベーション・アウトレイアは、共有ブロックスケールを膨張させ、残りの要素の有効ダイナミックレンジを圧縮し、重要な量子化誤差を引き起こす。
ランダム化されたアダマールや学習可能な回転を含む既存の回転ベースの治療法は、データに依存しないため、アウトレーヤが集中するチャネルを特に標的にすることはできない。
我々はDuQuant++を提案する。DuQuantは、マイクロスケーリンググループサイズ(B{=}32)とローテーションブロックサイズを整合させることで、DuQuantをMXFP4フォーマットに微調整する。
各MXFP4群は独立したスケーリング係数を持つため、双対回転と元のDuQuantにおけるジグザグ置換を必要とするクロスブロック分散問題は無関係となり、DuQuant++はパイプライン全体を1つのアウトリア対応回転に置き換えることができ、同時に重量分布を平滑化しながらオンライン回転コストを削減できる。
MXFP4 W4A4量子化の下でのLLaMA-3ファミリーの大規模な実験は、DuQuant++が一貫して最先端のパフォーマンスを実現していることを示している。
私たちのコードはhttps://github.com/Hsu1023/DuQuant-v2.comで利用可能です。
関連論文リスト
- Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - Rotate, Clip, and Partition: Towards W2A4KV4 Quantization by Integrating Rotation and Learnable Non-uniform Quantizer [7.833559115428751]
Rotate, Clip, and Partition (RCP)は量子化対応トレーニング(QAT)アプローチである。
RCPは最近の回転法と新しい一様質量量化器の設計を統合している。
RCPはLLaMA-2-7BをW2A4KV4に圧縮でき、わずか2.84 WikiText2 pplと5.29倍のメモリフットプリントが失われた。
論文 参考訳(メタデータ) (2025-02-17T08:12:34Z) - AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM Inference [6.699442219974261]
AMXFP4は4ビットの非対称なFPフォーマットで、どちらも非対称な共有スケールで処理する。
AMXFP4はVQAでMXFP4を3%上回り、CSQAで1.6%上回る。
論文 参考訳(メタデータ) (2024-11-15T03:11:19Z) - SpinQuant: LLM quantization with learned rotations [49.07335692298487]
重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。
我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。
本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
論文 参考訳(メタデータ) (2024-05-26T02:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。