論文の概要: Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4
- arxiv url: http://arxiv.org/abs/2603.08747v1
- Date: Thu, 05 Mar 2026 14:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.722063
- Title: Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4
- Title(参考訳): FP4推論の診断:NVFP4とMXFP4の層的およびブロック的感度解析
- Authors: Musa Cim, Burak Topcu, Mahmut Taylan Kandemir,
- Abstract要約: 量子化は、大きな言語モデル(LLM)に対する高いリソース需要に対処し、メモリの圧力と帯域の混雑を軽減する。
本研究は, MXFP4とNVFP4の2種類のFP4フォーマットを3つのQ2.5モデルスケールで系統解析する。
ゲート・アンド・アテンション・プロジェクションはFP4量子化に対して適度かつ実質的には感度が低いのに対し、アップ・アンド・ダウン・プロジェクション・レイヤは感度の点で一貫して支配的であることが観察された。
- 参考スコア(独自算出の注目度): 7.243327337529763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization addresses the high resource demand for large language models (LLMs) by alleviating memory pressure and bandwidth congestion and providing significantly scaled compute power with a tolerable impact on accuracy. Four-bit floating point (FP4), the lowest-precision format that preserves essential numerical properties such as exponent and sign, has begun to be adopted in cutting-edge architectures, including Blackwell and AMD CDNA, to support LLM quantization and reduce deployment costs. Although aggressive quantization can yield efficiency gains, the quantization sensitivity of within-transformer layers and whether these sensitivities generalize across existing FP4 formats and model scales remain underexplored. To elucidate quantization sensitivity, this study conducts a systematic analysis of two FP4 formats, MXFP4 and NVFP4, across three Qwen2.5 model scales (0.5B, 7B, and 14B), using controlled component-wise and block-wise isolation methodologies. We observe that MLP up- and down-projection layers consistently dominate in terms of sensitivity, while gate and attention projections are moderately and substantially less sensitive to FP4 quantization, respectively. We further find that sensitivity does not universally localize to the final blocks, but early blocks can be highly sensitive, particularly under MXFP4. Our results provide a diagnostic characterization of the inference behavior of FP4 across components, depths, and FP4 formats.
- Abstract(参考訳): 量子化は大きな言語モデル(LLM)の高リソース需要に対処し、メモリの圧力と帯域の混雑を緩和し、精度に許容される影響で計算能力を大幅に拡大する。
4ビット浮動小数点(FP4)は指数や符号などの重要な数値特性を保持する最小精度のフォーマットであり、LCM量子化と展開コスト削減のためにBlackwellやAMD CDNAなどの最先端アーキテクチャで採用され始めている。
積極的な量子化は効率向上をもたらすが、変圧器内層の量子化感度と、これらの感度が既存のFP4フォーマットにまたがって一般化するか否かは未解明のままである。
本研究では,Qwen2.5モデルスケール(0.5B,7B,14B)の2種類のFP4フォーマット(MXFP4とNVFP4)を,制御されたコンポーネントワイドおよびブロックワイド分離手法を用いて系統解析する。
ゲート・アンド・アテンション・プロジェクションはFP4量子化に対する感度が著しく低いのに対し,MLPアップ・アンド・ダウン・プロジェクション・レイヤは感度の点で常に支配的であることが観察された。
さらに、感度は最終ブロックに普遍的にローカライズされないが、初期のブロックは特にMXFP4の下で非常に感度が高い。
本結果は,FP4の成分,深度,FP4フォーマット間の推測挙動の診断的特徴を提供する。
関連論文リスト
- Dissecting Outlier Dynamics in LLM NVFP4 Pretraining [46.10969678564592]
本研究は,NVFP4プレトレーニング中におけるアーキテクチャ内外層力学の経時的解析を行う。
我々は、Softmax Attention (SA) と比較して、Linear Attention (LA) はテンソルあたりの重みを減少させるが、ブロック量子化の下ではブロックレベルのスパイクが持続することを示した。
次に,NVFP4のトレーニングレシピであるCHONを開発し,QK後の操作保護と統合した。
論文 参考訳(メタデータ) (2026-02-02T12:50:27Z) - Benchmarking Post-Training Quantization of Large Language Models under Microscaling Floating Point Formats [23.57507112139113]
マイクロスケーリング浮動小数点 (MXFP) は,大規模言語モデル (LLM) のための有望な低精度フォーマットとして登場した。
様々なポストトレーニング量子化(PTQ)アルゴリズムが提案されているが、主に整数量子化に焦点を当てている。
この研究は、MXFPフォーマットでPTQを体系的に調査し、7つのPTQアルゴリズム、15の評価ベンチマーク、3つのLLMファミリを含む。
論文 参考訳(メタデータ) (2026-01-14T15:16:55Z) - INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - Pioneering 4-Bit FP Quantization for Diffusion Models: Mixup-Sign Quantization and Timestep-Aware Fine-Tuning [14.145862114439831]
モデル量子化はウェイトとアクティベーションのビット幅を減らし、メモリ効率と推論速度を改善する。
既存の方法は、主に整数量子化と後学習量子化の微調整に基づいており、矛盾しない性能に悩まされている。
本稿では、まずモデル量子化に符号なしFP量子化を導入し、時間ステップ対応のLoRAとデノナイジング・ファクター損失アライメントを併用する混合符号浮動小数点量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:40:47Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。