論文の概要: INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats
- arxiv url: http://arxiv.org/abs/2510.25602v1
- Date: Wed, 29 Oct 2025 15:11:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.781619
- Title: INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats
- Title(参考訳): INT v.s. FP: 微粒化低ビット量子化フォーマットの総合的研究
- Authors: Mengzhao Chen, Meng Wu, Hui Jin, Zhihang Yuan, Jing Liu, Chaoyi Zhang, Yunshui Li, Jie Huang, Jin Ma, Zeyue Xue, Zhiheng Liu, Xingyan Bin, Ping Luo,
- Abstract要約: NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
- 参考スコア(独自算出の注目度): 51.72056104795248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern AI hardware, such as Nvidia's Blackwell architecture, is increasingly embracing low-precision floating-point (FP) formats to handle the pervasive activation outliers in Large Language Models (LLMs). Despite this industry trend, a unified comparison of FP and integer (INT) quantization across varying granularities has been missing, leaving algorithm and hardware co-design without clear guidance. This paper fills that gap by systematically investigating the trade-offs between FP and INT formats. We reveal a critical performance crossover: while FP excels in coarse-grained quantization, the comparison at fine-grained (block-wise) levels is more nuanced. Our comprehensive comparison demonstrates that for popular 8-bit fine-grained formats (e.g., MX with block size 32), MXINT8 is superior to its FP counterpart in both algorithmic accuracy and hardware efficiency. However, for 4-bit formats, FP (e.g., MXFP4, NVFP4) often holds an accuracy advantage , though we show that NVINT4 can surpass NVFP4 when outlier-mitigation techniques like Hadamard rotation are applied. We also introduce a symmetric clipping method that resolves gradient bias in fine-grained low-bit INT training, enabling nearly lossless performance for MXINT8 training. These findings challenge the current hardware trajectory, demonstrating that a one-size-fits-all FP approach is suboptimal and advocating that fine-grained INT formats, particularly MXINT8, offer a better balance of accuracy, power, and efficiency for future AI accelerators.
- Abstract(参考訳): NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、Large Language Models (LLMs)における広範囲なアクティベーションアウトリーを処理するために、低精度浮動小数点(FP)フォーマットをますます受け入れている。
この業界動向にもかかわらず、FPと整数量子化(INT)の様々な粒度に対する統一的な比較は欠落しており、アルゴリズムとハードウェアの共設計は明確なガイダンスは残っていない。
本稿では,FPフォーマットとINTフォーマットのトレードオフを体系的に検討することによって,そのギャップを埋める。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
我々の総合的な比較では、一般的な8ビットのきめ細かいフォーマット(例えば、ブロックサイズ32のMX)では、MXINT8はアルゴリズムの精度とハードウェア効率の両方においてFPよりも優れていることが示されている。
しかし、4ビットフォーマットではFP(eg , MXFP4, NVFP4)が精度上の優位性を持つことが多い。
また、細粒度低ビットINTトレーニングにおける勾配バイアスを解消し、MXINT8トレーニングにおけるほとんどロスレス性能を実現する対称クリッピング法を提案する。
これらの発見は、現在のハードウェア軌道に挑戦し、一大のFPアプローチが最適以下であることを示し、特にMXINT8のようなきめ細かいINTフォーマットが、将来のAIアクセラレーターの精度、パワー、効率のバランスを改善することを提唱している。
関連論文リスト
- Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - Integer or Floating Point? New Outlooks for Low-Bit Quantization on
Large Language Models [17.055400141733124]
低ビット整数形式(例えばINT8/INT4)は、大規模言語モデル(LLM)の従来の選択肢である。
低ビット浮動小数点フォーマット(例えばFP8/FP4)は魅力的な代替手段であり、NVIDIAのH100 GPUのような最先端ハードウェアからサポートを受けている。
本稿では,階層的に最適なフォーマットを選択するMoFQ(Mixture of Formats Quantization)を提案する。
論文 参考訳(メタデータ) (2023-05-21T05:28:37Z) - FP8 versus INT8 for efficient deep learning inference [14.98281493168929]
デバイス上での効率的な推論のために,FP8フォーマットとINTフォーマットの両方のパフォーマンスを比較した。
FP フォーマットは INT フォーマットよりも,専用ハードウェアの計算効率が 50-180% 程度低いことを示す。
提案したFP8フォーマットはトレーニングに適しているが,推測の結果はFP8の専用実装を保証していない。
論文 参考訳(メタデータ) (2023-03-31T10:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。