論文の概要: HeRo-Q: A General Framework for Stable Low Bit Quantization via Hessian Conditioning
- arxiv url: http://arxiv.org/abs/2601.21626v1
- Date: Thu, 29 Jan 2026 12:27:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.808429
- Title: HeRo-Q: A General Framework for Stable Low Bit Quantization via Hessian Conditioning
- Title(参考訳): HeRo-Q:ヘシアンコンディショニングによる安定低ビット量子化のための汎用フレームワーク
- Authors: Jinhao Zhang Yunquan Zhang, Zicheng yan, Boyang Zhang, Jun Sun, Daning Cheng,
- Abstract要約: 量子化前の重み空間に軽量で学習可能な回転圧縮行列を適用したヘッセンロバスト量子化(HeRo Q)アルゴリズムを提案する。
LlamaとQwenの実験では、HeRo QはGPTQ、AWQ、SpinQuantといったアートメソッドの状態を一貫して上回っている。
- 参考スコア(独自算出の注目度): 5.407724832457912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post Training Quantization (PTQ), a mainstream model compression technique, often leads to the paradoxical 'low error, high loss' phenomenon because it focuses solely on minimizing quantization error. The root cause lies in the Hessian matrix of the LLM loss landscape: a few high curvature directions are extremely sensitive to perturbations. To address this, we propose the Hessian Robust Quantization (HeRo Q) algorithm, which applies a lightweight, learnable rotation-compression matrix to the weight space prior to quantization. This joint framework reshapes the loss landscape by reducing the largest Hessian eigenvalue and reducing its max eigenvalue, thereby significantly enhancing robustness to quantization noise. HeRo-Q requires no architectural modifications, incurs negligible computational overhead, and integrates seamlessly into existing PTQ pipelines. Experiments on Llama and Qwen models show that HeRo Q consistently outperforms state of the art methods including GPTQ, AWQ, and SpinQuant not only achieving superior performance under standard W4A8 settings, but also excelling in the highly challenging W3A16 ultra low bit regime, where it boosts GSM8K accuracy on Llama3 8B to 70.15\% and effectively avoids the logical collapse commonly seen in aggressive quantization.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は主流のモデル圧縮技術であり、量子化誤差の最小化に重点を置いているため、パラドックス的な「低誤差、高損失」現象につながることが多い。
根本原因はLLMの損失地形のヘッセン行列にあり、いくつかの高い曲率方向は摂動に非常に敏感である。
そこで本研究では,Hessian Robust Quantization (HeRo Q)アルゴリズムを提案する。
このジョイント・フレームワークは、最大のヘッセン固有値を減らし、最大固有値を減らし、量子化ノイズに対するロバスト性を著しく高めることにより、損失景観を補う。
HeRo-Qはアーキテクチャの変更を必要とせず、無視可能な計算オーバーヘッドを発生させ、既存のPTQパイプラインとシームレスに統合する。
LlamaとQwenの実験では、HeRo QはGPTQ、AWQ、SpinQuantといった最先端の手法を一貫して上回り、標準的なW4A8設定で優れた性能を発揮するだけでなく、非常に挑戦的なW3A16ウルトラ低ビット方式でも優れており、Llama3 8BのGSM8K精度を70.15倍に向上させ、積極的な量子化で見られる論理的崩壊を効果的に回避している。
関連論文リスト
- LoPRo: Enhancing Low-Rank Quantization via Permuted Block-Wise Rotation [6.797237769820339]
ポストトレーニング量子化(PTQ)は、比較的高い精度を維持しながら効果的なモデル圧縮を可能にする。
残留行列量子化を向上する新しい微調整不要なPTQアルゴリズムであるLoPRoを提案する。
実験により、LoPRoは2ビットおよび3ビットの量子化において既存の微調整不要のPTQ法より優れていることが示された。
論文 参考訳(メタデータ) (2026-01-27T14:56:04Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Quantization Meets Reasoning: Exploring and Mitigating Degradation of Low-Bit LLMs in Mathematical Reasoning [39.56908863102256]
低ビット後の量子化は、より厳しい設定で69.81%の数学的推論を損なう。
デプロイクリティカルな2つの問題に,プロセスレベルの精度で対処する。
われわれの設定では、332のキュレートされたサンプルと1つのGPUで3~5分計算すると、完全な精度のベースラインに向かって4ビットの重み計算が引き起こされる。
論文 参考訳(メタデータ) (2025-05-16T12:11:40Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals [10.860081994662645]
大規模言語モデル(LLM)の学習後の量子化は、推論時の計算コストを抑えるという約束を果たす。
本稿では,最先端技術をさらに推し進めるPTQ手法であるResQを提案する。
ResQは、様々なベンチマークにおいて、最近の一様および混合精度のPTQ法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-18T22:01:55Z) - QT-DoG: Quantization-aware Training for Domain Generalization [58.439816306817306]
領域一般化のための量子化アウェアトレーニング(QT-DoG)を提案する。
我々は、減量量化が損失景観におけるより平坦なミニマムを効果的に導くことを実証した。
QT-DoGは、モデル重みのノイズを誘導することで暗黙の正則化器として量子化を利用する。
論文 参考訳(メタデータ) (2024-10-08T13:21:48Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。