論文の概要: SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs
- arxiv url: http://arxiv.org/abs/2512.04746v1
- Date: Thu, 04 Dec 2025 12:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.162072
- Title: SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs
- Title(参考訳): SignRoundV2:LLMの極低ビット後処理量子化における性能ギャップの解消
- Authors: Wenhua Cheng, Weiwei Zhang, Heng Guo, Haihao Shen,
- Abstract要約: SignRoundV2は訓練後の量子化フレームワークであり、混合精度なしでも非常に効果的である。
提案手法は大規模言語モデルの競合精度を保ち、4-5ビットで約1%のばらつきで生産レベルの性能を達成する。
- 参考スコア(独自算出の注目度): 4.946856266233001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extreme low-bit quantization is critical for efficiently deploying Large Language Models (LLMs), yet it often leads to severe performance degradation at 2-bits and even 4-bits (e.g., MXFP4). We present SignRoundV2, a post-training quantization framework that is highly effective even without mixed-precision. SignRoundV2 introduces (1) a fast sensitivity metric that combines gradient information with quantization-induced deviations to guide layer-wise bit allocation, and (2) a lightweight pre-tuning search for quantization scales to improve extremely low-bit quantization. These components allow SignRoundV2 to close the gap with full-precision models. Extensive experiments indicate that our method sustains competitive accuracy for LLMs, achieving production-grade performance with about 1 percent variance at 4-5 bits and strong results even at 2 bits. The implementation is available at https://github.com/intel/auto-round.
- Abstract(参考訳): 超低ビット量子化は、LLM(Large Language Models)の効率的なデプロイには不可欠であるが、2ビットや4ビット(MXFP4など)の大幅な性能低下につながることが多い。
混合精度をもたないポストトレーニング量子化フレームワークSignRoundV2を提案する。
SignRoundV2は、(1)勾配情報と量子化による偏差を結合した高速感度の指標を導入し、(2)低ビット量子化を改善するために、量子化スケールの軽量な事前調整を行う。
これらのコンポーネントによりSignRoundV2は完全精度モデルでギャップを埋めることができる。
大規模実験により, LLMの競合精度は持続し, 4~5ビットで約1%, 2ビットでも強い結果が得られた。
実装はhttps://github.com/intel/auto-round.comで公開されている。
関連論文リスト
- AMS-QUANT: Adaptive Mantissa Sharing for Floating-point Quantization [7.413057271242686]
量子化、特に浮動小数点量子化は、大きな言語モデル(LLM)推論を高速化できることが知られている。
整数ビット幅から非整数ビット幅への浮動小数点量子化探索を探索するAMS-Quantを提案する。
AMS-Quant はモデルを FP-5.33-e2m3 と FP4.25-e2m2 に量子化し、FP16 の推論よりもデコードを大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2025-10-16T15:37:23Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - ParetoQ: Improving Scaling Laws in Extremely Low-bit LLM Quantization [73.60493264901359]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs [16.596819845726625]
SignRoundは、符号付き勾配降下(SignSGD)を利用して、200ステップで丸め値とウェイトクリッピングを最適化する手法である。
2ビットから4ビットにわたって例外的な結果を提供すると同時に、チューニングコストを最小化し、追加の推論オーバーヘッドを回避する。
また、近年のモデルでは強力な一般化が示され、ほとんどのシナリオでほぼロスレスな4ビット量子化が達成されている。
論文 参考訳(メタデータ) (2023-09-11T14:58:23Z) - PalQuant: Accelerating High-precision Networks on Low-precision
Accelerators [17.877271678887315]
低精度深層学習アクセラレータ (DLAs) は, チップ面積とエネルギー消費の優位性から普及している。
高精度かつ効率的な推論を実現する一つの方法は、高精度ニューラルネットワークを低精度DLAに展開することである。
並列低精度表現をスクラッチから学習することで高精度計算を近似するParallel Low-precision Quantization (PalQuant)法を提案する。
論文 参考訳(メタデータ) (2022-08-03T09:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。