論文の概要: SOAR: Scale Optimization for Accurate Reconstruction in NVFP4 Quantization
- arxiv url: http://arxiv.org/abs/2605.12245v1
- Date: Tue, 12 May 2026 15:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.955823
- Title: SOAR: Scale Optimization for Accurate Reconstruction in NVFP4 Quantization
- Title(参考訳): SOAR: NVFP4量子化における高精度再構成のためのスケール最適化
- Authors: Chengzhu Bao, Xianglong Yan, Zhiteng Li, Guangshuo Qin, Guanghua Yu, Yulun Zhang,
- Abstract要約: NVFP4は、最近、大規模言語モデルの効率的な4ビットマイクロスケーリングフォーマットとして登場した。
既存の方法は、しばしば、柔軟性のないスケールの選択と、量子化と量子化のスケールの併用による、最適以下の性能をもたらす。
NVFP4量子化の精度を向上する新しい学習後量子化フレームワークであるSOAR(Scale Optimization for Accurate Reconstruction)を提案する。
- 参考スコア(独自算出の注目度): 19.022444007775896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NVFP4 has recently emerged as an efficient 4-bit microscaling format for large language models (LLMs), offering superior numerical fidelity with native hardware support. However, existing methods often yield suboptimal performance due to inflexible scale selection and the coupled treatment of quantization and dequantization scales. To address these issues, we propose Scale Optimization for Accurate Reconstruction (SOAR), a novel post-training quantization framework that improves the accuracy of NVFP4 quantization. At its core, SOAR features Closed-form Joint Scale Optimization (CJSO), which jointly optimizes global and block-wise scales via analytical solutions derived from reconstruction error minimization. Furthermore, it incorporates Decoupled Scale Search (DSS). DSS decouples the high-precision quantization scale from its constrained dequantization counterpart, and performs discrete search to mitigate precision loss from scale quantization. Extensive experiments across multiple LLMs show that our method consistently outperforms existing NVFP4 quantization baselines, achieving superior accuracy under the same memory footprint with no additional hardware overhead. The code and models will be available at https://github.com/steven-bao1/SOAR.
- Abstract(参考訳): NVFP4は、最近、大規模言語モデル(LLM)の効率的な4ビットマイクロスケーリングフォーマットとして登場し、ネイティブハードウェアのサポートで優れた数値忠実性を提供している。
しかし、既存の手法は、しばしば、柔軟性のないスケールの選択と、量子化と量子化のスケールの複合処理により、最適以下の性能を得る。
これらの問題に対処するために,NVFP4量子化の精度を向上させる新しい学習後量子化フレームワークであるSOAR(Scale Optimization for Accurate Reconstruction)を提案する。
SOARの中核にはCJSO(Close-form Joint Scale Optimization)があり、これは再構築エラーの最小化から導かれる分析ソリューションを通じて、グローバルスケールとブロックスケールを共同で最適化する。
さらに、Decoupled Scale Search(DSS)も組み込まれている。
DSSは、その制約付き量子化スケールから高精度量子化スケールを分離し、スケール量子化からの精度損失を軽減するために離散探索を行う。
複数のLCMを対象とした実験により,既存のNVFP4量子化ベースラインを一貫して上回り,ハードウェアオーバーヘッドを伴わずに同じメモリフットプリントでの精度が向上した。
コードとモデルはhttps://github.com/steven-bao1/SOAR.comから入手できる。
関連論文リスト
- CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - Efficient Fine-Tuning of Quantized Models via Adaptive Rank and Bitwidth [10.872650037112255]
QLoRAは、低ビット量子化とLoRAを効果的に組み合わせて、大規模言語モデル(LLM)のためのメモリフレンドリーな微調整を実現する。
部分キャリブレーションデータを用いて、各層に対する量子化成分と低ランク空間のランクを共同で探索する、統一的かつ勾配のない戦略である textbfQR-Adaptor を提案する。
提案手法はGSM8Kに対して4.89%の精度向上を実現し、4ビット設定のメモリフットプリントを維持しつつ、16ビットの微調整モデルよりも優れるケースもある。
論文 参考訳(メタデータ) (2025-05-02T08:46:01Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM Inference [6.699442219974261]
AMXFP4は4ビットの非対称なFPフォーマットで、どちらも非対称な共有スケールで処理する。
AMXFP4はVQAでMXFP4を3%上回り、CSQAで1.6%上回る。
論文 参考訳(メタデータ) (2024-11-15T03:11:19Z) - SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。
SLIMはモデル精度を最大5.66%(LLaMA-2-7B)まで改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。