論文の概要: Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction
- arxiv url: http://arxiv.org/abs/2603.08713v1
- Date: Fri, 30 Jan 2026 23:24:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.482947
- Title: Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction
- Title(参考訳): MXFP4による量子化の可能性:量子化誤差低減のための戦略
- Authors: Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu Kim,
- Abstract要約: Open Compute Project (OCP) Microscaling標準MXFP4はNVIDIAのNVFP4の精度に遅れている。
我々は,OAS(Overflow-Aware Scaling)とMBS(Macro Block Scaling)という,ソフトウェアのみの2つのテクニックを紹介した。
OASとMBSはMXFP4とNVFP4のエンドツーエンドの精度ギャップを平均で約10%から1%以下に減らす。
- 参考スコア(独自算出の注目度): 1.8599887993390827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have intensified the need for low-precision formats that enable efficient, large-scale inference. The Open Compute Project (OCP) Microscaling (MX) standard is attractive due to its favorable hardware efficiency, but its 4-bit variant (MXFP4) lags behind NVIDIA's NVFP4 in accuracy, limiting adoption. We introduce two software-only techniques, Overflow-Aware Scaling (OAS) and Macro Block Scaling (MBS), that improve MXFP4 quantization fidelity without requiring hardware changes. OAS reduces overall errors by increasing effective dynamic range under power-of-two block scaling, while MBS allocates higher-precision scaling at a coarser granularity to better preserve outliers. Across multiple LLMs and standard downstream benchmarks, OAS and MBS reduce the end-to-end accuracy gap between MXFP4 and NVFP4 from about 10% to below 1% on average, while incurring modest GEMM overhead (6.2% on average). These results re-establish MXFP4 as a practical alternative to NVFP4, enabling near-NVFP4 accuracy while retaining MX's hardware-efficiency advantages (e.g., 12% relative area savings in tensor cores).
- Abstract(参考訳): 大規模言語モデル(LLM)は、効率的で大規模な推論を可能にする低精度フォーマットの必要性を強めている。
Open Compute Project (OCP) Microscaling (MX) 標準は、ハードウェア効率がよいため魅力的だが、その4ビット版(MXFP4)はNVIDIAのNVFP4の精度に遅れており、採用が制限されている。
本稿では,OAS(Overflow-Aware Scaling)とMBS(Macro Block Scaling)の2つのソフトウェア専用手法を紹介する。
OASは2ブロックのパワー・オブ・ツー・ブロック・スケーリングの下で効果的なダイナミックレンジを増大させることで全体的なエラーを低減し、MBSはより粗い粒度で高い精度のスケーリングを割り当て、アウトリージをよりよく保存する。
複数のLLMと標準ダウンストリームベンチマークで、OASとMBSはMXFP4とNVFP4のエンドツーエンドの精度ギャップを平均で約10%から1%以下に減らした。
これらの結果は、MXFP4をNVFP4の実用的な代替品として再確立し、MXのハードウェア効率の利点を維持しつつほぼNVFP4の精度を実現した(例えば、テンソルコアにおける相対面積の12%の節約)。
関連論文リスト
- ARCQuant: Boosting NVFP4 Quantization with Augmented Residual Channels for LLMs [4.431548809730958]
ARCQuantは、Augmented Residual Channelsを通じてNVFP4パフォーマンスを向上させるフレームワークである。
ARCQuantは、複雑なタスクや下流タスクにおいて、完全精度のベースラインに匹敵する、最先端の精度を実現する。
論文 参考訳(メタデータ) (2026-01-12T12:27:22Z) - INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - MX+: Pushing the Limits of Microscaling Formats for Efficient Large Language Model Serving [4.176741972965246]
大規模言語モデル(LLM)のコスト効率向上のためには,データフォーマットの高精度化が不可欠である
本稿では,ブロック浮動小数点(BFP)フォーマットの最近の業界主導の変種に着目した。
マイクロスケーリング(MX)フォーマットへのシームレスな統合を目的とした費用対効果と非侵入性の拡張であるMX+を提案する。
論文 参考訳(メタデータ) (2025-10-16T11:05:54Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM Inference [6.699442219974261]
AMXFP4は4ビットの非対称なFPフォーマットで、どちらも非対称な共有スケールで処理する。
AMXFP4はVQAでMXFP4を3%上回り、CSQAで1.6%上回る。
論文 参考訳(メタデータ) (2024-11-15T03:11:19Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。