論文の概要: Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization
- arxiv url: http://arxiv.org/abs/2509.23202v1
- Date: Sat, 27 Sep 2025 09:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.102065
- Title: Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization
- Title(参考訳): FP4量子化のマイクロスケーリングにおける約束とパフォーマンスのギャップを埋める
- Authors: Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev, Andrei Panferov, Eldar Kurtic, Shubhra Pandit, Alexandre Marques, Mark Kurtz, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh,
- Abstract要約: 本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
- 参考スコア(独自算出の注目度): 77.67818998672516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent hardware-accelerated microscaling 4-bit floating-point formats such as MXFP4 and NVFP4, supported on NVIDIA and AMD GPUs, promise to revolutionize large language model (LLM) inference. Yet, their practical benefits remain unproven. We present the first comprehensive study of MXFP4 and NVFP4 for post-training quantization, revealing gaps between their promise and real-world performance. Our analysis shows that state-of-the-art methods struggle with FP4, due to two key issues: (1) NVFP4's small group size provably neutralizes traditional outlier mitigation techniques; (2) MXFP4's power-of-two scale quantization severely degrades accuracy due to high induced error. To bridge this gap, we introduce Micro-Rotated-GPTQ (MR-GPTQ), a variant of the classic GPTQ quantization algorithm that tailors the quantization process to FP4's unique properties, by using block-wise Hadamard transforms and format-specific optimizations. We support our proposal with a set of high-performance GPU kernels that enable the MR-GPTQ format with negligible overhead, by rotation fusion into the weights, and fast online computation of the activations. This leads to speedups vs. FP16 of up to 3.6x layer-wise, and 2.2x end-to-end on NVIDIA B200, and of 6x layer-wise and 4x end-to-end on RTX5090. Our extensive empirical evaluation demonstrates that MR-GPTQ matches or outperforms state-of-the-art accuracy, significantly boosting MXFP4, to the point where it nears that of NVFP4. We conclude that, while FP4 is not an automatic upgrade over INT4, format-specialized methods like MR-GPTQ can unlock a new frontier of accuracy-performance trade-offs.
- Abstract(参考訳): 最近のハードウェアアクセラレーションにより、NVIDIAとAMD GPUでサポートされているMXFP4やNVFP4といった4ビット浮動小数点フォーマットは、大きな言語モデル(LLM)推論に革命をもたらすことを約束している。
しかし、その実用的利益は証明されていない。
本稿では,MXFP4とNVFP4の総合的研究を行い,その将来性と実世界のパフォーマンスのギャップを明らかにする。
解析の結果,(1)NVFP4の小さなグループサイズは従来のオフリエ緩和手法を確実に中和し,(2)MXFP4のパワーオブツースケールの量子化は高い誘導誤差により精度を著しく低下させることがわかった。
このギャップを埋めるために、ブロックワイドのアダマール変換とフォーマット固有の最適化を用いて、量子化過程をFP4のユニークな特性に調整する古典的なGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を導入する。
我々は,MR-GPTQフォーマットを重みへの回転融合や,アクティベーションの高速オンライン計算によって,無視可能なオーバーヘッドで実現可能な高性能GPUカーネルのセットを提案する。
これにより、最大3.6倍の層でFP16、NVIDIA B200で2.2倍、RTX5090で6倍の層で4倍のエンドツーエンドがスピードアップされる。
MR-GPTQ は最先端の精度に適合し, MXFP4 は NVFP4 に近づき, 大幅に向上した。
我々は、FP4はINT4に対する自動アップグレードではないが、MR-GPTQのようなフォーマット特化メソッドは、精度と性能のトレードオフの新たなフロンティアを解き放つことができると結論付けた。
関連論文リスト
- FP4 All the Way: Fully Quantized Training of LLMs [26.195547788434908]
主に4ビット浮動小数点(FP4)の精度を用いて,大規模言語モデル(LLM)の完全量子化訓練(FQT)を実演する。
ブロックサイズ,スケーリングフォーマット,ラウンドメソッドなど,FP4の主要な設計選択について検討する。
論文 参考訳(メタデータ) (2025-05-25T12:14:25Z) - Oscillation-Reduced MXFP4 Training for Vision Transformers [19.642508885867375]
FP4の精度で事前学習するトランスフォーマーには、かなりの精度が失われる。
MXFP4データフォーマットのトレーニングは依然として大きな劣化をもたらす。
より正確なFP4トレーニングのための新しいトレーニング手法TetraJetを提案する。
論文 参考訳(メタデータ) (2025-02-28T08:51:55Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM Inference [6.699442219974261]
AMXFP4は4ビットの非対称なFPフォーマットで、どちらも非対称な共有スケールで処理する。
AMXFP4はVQAでMXFP4を3%上回り、CSQAで1.6%上回る。
論文 参考訳(メタデータ) (2024-11-15T03:11:19Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。