論文の概要: Benchmarking Post-Training Quantization of Large Language Models under Microscaling Floating Point Formats
- arxiv url: http://arxiv.org/abs/2601.09555v1
- Date: Wed, 14 Jan 2026 15:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.444472
- Title: Benchmarking Post-Training Quantization of Large Language Models under Microscaling Floating Point Formats
- Title(参考訳): マイクロスケーリング浮動小数点フォーマットによる大規模言語モデルの学習後量子化のベンチマーク
- Authors: Manyi Zhang, Ji-Fu Li, Zhongao Sun, Haoli Bai, Hui-Ling Zhen, Zhenhua Dong, Xianzhi Yu,
- Abstract要約: マイクロスケーリング浮動小数点 (MXFP) は,大規模言語モデル (LLM) のための有望な低精度フォーマットとして登場した。
様々なポストトレーニング量子化(PTQ)アルゴリズムが提案されているが、主に整数量子化に焦点を当てている。
この研究は、MXFPフォーマットでPTQを体系的に調査し、7つのPTQアルゴリズム、15の評価ベンチマーク、3つのLLMファミリを含む。
- 参考スコア(独自算出の注目度): 23.57507112139113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Microscaling Floating-Point (MXFP) has emerged as a promising low-precision format for large language models (LLMs). Despite various post-training quantization (PTQ) algorithms being proposed, they mostly focus on integer quantization, while their applicability and behavior under MXFP formats remain largely unexplored. To address this gap, this work conducts a systematic investigation of PTQ under MXFP formats, encompassing over 7 PTQ algorithms, 15 evaluation benchmarks, and 3 LLM families. The key findings include: 1) MXFP8 consistently achieves near-lossless performance, while MXFP4 introduces substantial accuracy degradation and remains challenging; 2) PTQ effectiveness under MXFP depends strongly on format compatibility, with some algorithmic paradigms being consistently more effective than others; 3) PTQ performance exhibits highly consistent trends across model families and modalities, in particular, quantization sensitivity is dominated by the language model rather than the vision encoder in multimodal LLMs; 4) The scaling factor of quantization is a critical error source in MXFP4, and a simple pre-scale optimization strategy can significantly mitigate its impact. Together, these results provide practical guidance on adapting existing PTQ methods to MXFP quantization.
- Abstract(参考訳): Microscaling Floating-Point (MXFP) は,大規模言語モデル(LLM)において,有望な低精度フォーマットとして登場した。
様々なポストトレーニング量子化(PTQ)アルゴリズムが提案されているが、主に整数量子化に焦点が当てられ、MXFPフォーマットでの適用性と振る舞いは未解明のままである。
このギャップに対処するため、この研究はMXFPフォーマットでPTQを体系的に調査し、7つのPTQアルゴリズム、15の評価ベンチマーク、3つのLLMファミリーを含む。
主な発見は以下のとおりである。
1)MXFP8は、ほぼロスレス性能を連続的に達成し、MXFP4は、相当な精度劣化を導入し、依然として困難である。
2) MXFPにおけるPTQの有効性はフォーマットの互換性に強く依存しており,いくつかのアルゴリズムパラダイムは,他よりも一貫して有効である。
3)PTQ性能はモデルファミリ間に非常に一貫した傾向を示し,特に量子化感度はマルチモーダルLLMにおける視覚エンコーダよりも言語モデルに支配されている。
4) 量子化のスケーリング係数はMXFP4の臨界誤差源であり, 簡単な事前スケール最適化手法によりその影響を著しく軽減することができる。
これらの結果は,既存のPTQ手法をMXFP量子化に適用するための実用的なガイダンスを提供する。
関連論文リスト
- Block Rotation is All You Need for MXFP4 Quantization [42.603238130671166]
トレーニング後の量子化は、大規模言語モデルの効率的なデプロイのための有望なソリューションである。
既存のほとんどのメソッドはINT4フォーマット用に設計されているが、MXFP4の出現は現在の技術の適用性に関する疑問を提起している。
GPTQのような手法は一貫して高い性能を提供するのに対して、ローテーションベースのアプローチは、ほぼすべての最先端のアプローチで使われているが、MXFP4との深刻な非互換性に悩まされている。
論文 参考訳(メタデータ) (2025-11-06T09:22:31Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - A Comprehensive Evaluation on Quantization Techniques for Large Language Models [46.75040730001041]
後学習量子化(PTQ)は、大規模言語モデル(LLM)のメモリフットプリントと計算オーバーヘッドを大幅に削減する。
我々は、最先端の手法を幅広く検討し、同じ条件下で総合的な評価を行い、公正な比較を行う。
最新のMXFP4およびNVFP4データフォーマットとその性能評価を行った。
論文 参考訳(メタデータ) (2025-07-23T11:21:21Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - Post Training Quantization of Large Language Models with Microscaling Formats [4.736634198230005]
SmoothQuant, AWQ, GPTQの3つの有名なポストトレーニング手法の併用について検討した。
異なるPTQ手法を組み合わせることで、4ビットの重みと8ビットのアクティベーションにモデルを量子化できることを示す。
論文 参考訳(メタデータ) (2024-05-12T02:15:26Z) - Benchmarking the Reliability of Post-training Quantization: a Particular
Focus on Worst-case Performance [53.45700148820669]
ポストトレーニング量子化(PTQ)は、独自のアーキテクチャやトレーニング手順を変更することなく、ディープニューラルネットワーク(DNN)を圧縮するための一般的な方法である。
その有効性と利便性にもかかわらず、分散シフトやデータノイズといった極端ケースの存在下でのPTQ手法の信頼性は明らかにされていない。
そこで本研究では,様々なPTQ手法を用いてこの問題について検討する。
論文 参考訳(メタデータ) (2023-03-23T02:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。