論文の概要: HESTIA: A Hessian-Guided Differentiable Quantization-Aware Training Framework for Extremely Low-Bit LLMs
- arxiv url: http://arxiv.org/abs/2601.20745v1
- Date: Wed, 28 Jan 2026 16:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:07.017198
- Title: HESTIA: A Hessian-Guided Differentiable Quantization-Aware Training Framework for Extremely Low-Bit LLMs
- Title(参考訳): HESTIA:超低ビットLCMのためのヘッセン式微分量子化学習フレームワーク
- Authors: Guoan Wang, Feiyu Wang, Zongwei Lv, Yikun Zong, Tong Yang,
- Abstract要約: Hestiaは、非常に低ビットモデルのためのHessian-guided differentiable QATフレームワークである。
Hestiaは、既存の3次QATベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 7.58074574044232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) continue to scale, deployment is increasingly bottlenecked by the memory wall, motivating a shift toward extremely low-bit quantization. However, most quantization-aware training (QAT) methods apply hard rounding and the straight-through estimator (STE) from the beginning of the training, which prematurely discretizes the optimization landscape and induces persistent gradient mismatch between latent weights and quantized weights, hindering effective optimization of quantized models. To address this, we propose Hestia, a Hessian-guided differentiable QAT framework for extremely low-bit LLMs, which replaces the rigid step function with a temperature-controlled softmax relaxation to maintain gradient flow early in training while progressively hardening quantization. Furthermore, Hestia leverages a tensor-wise Hessian trace metric as a lightweight curvature signal to drive fine-grained temperature annealing, enabling sensitivity-aware discretization across the model. Evaluations on Llama-3.2 show that Hestia consistently outperforms existing ternary QAT baselines, yielding average zero-shot improvements of 5.39% and 4.34% for the 1B and 3B models. These results indicate that Hessian-guided relaxation effectively recovers representational capacity, establishing a more robust training path for 1.58-bit LLMs. The code is available at https://github.com/hestia2026/Hestia.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケールアップが進むにつれて、デプロイメントはメモリウォールによってボトルネックになり、極端に低ビットの量子化へのシフトを動機付けている。
しかし、ほとんどの量子化対応トレーニング(QAT)法は、初期からハードラウンドとストレートスルー推定器(STE)を適用しており、これは最適化のランドスケープを早期に離散化し、潜在重みと量子化重みの永続的な勾配ミスマッチを誘導し、量子化モデルの効果的な最適化を妨げる。
これを解決するため,ヘッセン誘導型極低ビットLCM用QATフレームワークであるHestiaを提案する。このフレームワークは,厳密なステップ関数を温度制御されたソフトマックス緩和に置き換え,段階的に量子化を図りながら,トレーニングの早い段階で勾配流を維持する。
さらに、ヘステアはテンソルワイド・ヘッセント計量を軽量な曲率信号として利用し、微粒な温度アニールを駆動し、モデル全体の感度認識による離散化を可能にする。
Llama-3.2の評価によると、Hestiaは既存の3次QATベースラインより一貫して優れており、1Bモデルと3Bモデルでは平均で5.39%と4.34%のゼロショット改善を達成している。
これらの結果から, ヘッセン誘導緩和は表現能力の回復を効果的に行い, 1.58ビットLLMのより堅牢なトレーニングパスを確立することが示唆された。
コードはhttps://github.com/hestia2026/Hestia.comで公開されている。
関連論文リスト
- CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Fine-tuning Quantized Neural Networks with Zeroth-order Optimization [21.0540879091664]
我々は、勾配推定のために連続量子化スケールを摂動する単純で効果的な方法である量子化ゼロ階最適化(QZO)を提案する。
QZOは4ビットLLMの合計メモリコストを18ドル以上削減でき、24GBのGPUでLlama-2-13Bを微調整できる。
論文 参考訳(メタデータ) (2025-05-19T17:55:15Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - QuEST: Stable Training of LLMs with 1-Bit Weights and Activations [27.644652093888745]
QuESTはスパースまたは量子化された言語モデルをトレーニングするための新しい方法である。
我々は4ビットで最適性を示し、1ビットの重みとアクティベーションの低い安定収束を示す。
Llama型アーキテクチャの実験により、QuESTはハードウェアサポートされた全範囲にわたる安定したスケーリング法則を導出することが示された。
論文 参考訳(メタデータ) (2025-02-07T15:23:34Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - Error-aware Quantization through Noise Tempering [43.049102196902844]
量子化対応トレーニング(QAT)は、量子化エラーをシミュレートしながら、エンドタスクに関するモデルパラメータを最適化する。
本研究では,指数関数的に減衰する量子化・エラー認識ノイズと,学習可能なタスク損失勾配のスケールを組み込んで量子化演算子の効果を近似する。
本手法は, 従来の手法を0.5-1.2%絶対値で上回り, 均一な(非混合精度)量子化のための最先端トップ1分類精度を得る。
論文 参考訳(メタデータ) (2022-12-11T20:37:50Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。