論文の概要: StableQAT: Stable Quantization-Aware Training at Ultra-Low Bitwidths
- arxiv url: http://arxiv.org/abs/2601.19320v1
- Date: Tue, 27 Jan 2026 08:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.238123
- Title: StableQAT: Stable Quantization-Aware Training at Ultra-Low Bitwidths
- Title(参考訳): StableQAT: 超低ビット幅での安定した量子化認識トレーニング
- Authors: Tianyi Chen, Sihan Chen, Xiaoyi Qu, Dan Zhao, Ruomei Yan, Jongwoo Ko, Luming Liang, Pashmina Cameron,
- Abstract要約: 量子化対応トレーニング(QAT)は、厳格なメモリとレイテンシの制約の下で大規模モデルをデプロイするために不可欠である。
ストレートスルー推定器(STE)やソフト量子化器に基づく一般的な手法は、しばしばミスマッチ、不安定、高い計算オーバーヘッドに悩まされる。
超低ビット環境でのトレーニングを安定化する統合的で効率的なQATフレームワークであるStableQATを提案する。
- 参考スコア(独自算出の注目度): 49.94623294999562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization-aware training (QAT) is essential for deploying large models under strict memory and latency constraints, yet achieving stable and robust optimization at ultra-low bitwidths remains challenging. Common approaches based on the straight-through estimator (STE) or soft quantizers often suffer from gradient mismatch, instability, or high computational overhead. As such, we propose StableQAT, a unified and efficient QAT framework that stabilizes training in ultra low-bit settings via a novel, lightweight, and theoretically grounded surrogate for backpropagation derived from a discrete Fourier analysis of the rounding operator. StableQAT strictly generalizes STE as the latter arises as a special case of our more expressive surrogate family, yielding smooth, bounded, and inexpensive gradients that improve QAT training performance and stability across various hyperparameter choices. In experiments, StableQAT exhibits stable and efficient QAT at 2-4 bit regimes, demonstrating improved training stability, robustness, and superior performance with negligible training overhead against standard QAT techniques. Our code is available at https://github.com/microsoft/StableQAT.
- Abstract(参考訳): 量子化対応トレーニング(QAT)は、厳密なメモリと遅延制約下での大規模モデルのデプロイには不可欠だが、超低ビット幅で安定的で堅牢な最適化を実現することは依然として難しい。
ストレートスルー推定器(STE)やソフト量子化器に基づく一般的な手法は、しばしば勾配ミスマッチ、不安定性、高い計算オーバーヘッドに悩まされる。
そこで本稿では, ラウンド演算子の離散フーリエ解析から得られたバックプロパゲーションのための, 新しく, 軽量, 理論的に根拠付けられたサロゲートを用いて, 極低ビット設定でのトレーニングを安定化する, 統一的で効率的なQATフレームワークであるStableQATを提案する。
StableQATはSTEを厳密に一般化し、後者はより表現力のあるサロゲートファミリーの特別なケースとして生じ、様々なハイパーパラメータ選択におけるQATトレーニング性能と安定性を向上させるスムーズで有界で安価な勾配をもたらす。
実験では、StableQATは2-4ビットのレシエーションで安定かつ効率的なQATを示し、トレーニングの安定性、堅牢性、そして標準QAT技術に対する無視可能なトレーニングオーバーヘッドによる優れたパフォーマンスを示す。
私たちのコードはhttps://github.com/microsoft/StableQAT.comで公開されています。
関連論文リスト
- What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study [59.44848132298657]
ポストトレーニング量子化(PTQ)は通常、特に低ビット設定でのタスクの推論において、大きな精度低下のコストが伴う。
本研究では,推論モデルに対する量子化認識学習(QAT)の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-21T11:22:29Z) - CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - TensorHyper-VQC: A Tensor-Train-Guided Hypernetwork for Robust and Scalable Variational Quantum Computing [50.95799256262098]
量子機械学習のための新しいテンソルトレイン(TT)誘導ハイパーネットワークフレームワークであるHyper-VQCを紹介する。
我々のフレームワークは、量子回路パラメータの生成を古典的なTTネットワークに委譲し、量子ハードウェアから最適化を効果的に分離する。
これらの結果から、Hyper-VQCは、短期デバイス上での実用的な量子機械学習を促進するためのスケーラブルで耐雑音性のあるフレームワークとして位置づけられる。
論文 参考訳(メタデータ) (2025-08-01T23:37:55Z) - Stabilizing Quantization-Aware Training by Implicit-Regularization on Hessian Matrix [0.7261171488281837]
損失の急激な状況は、劇的なパフォーマンス低下を招き、不安定を引き起こす重要な要因であることがわかった。
本稿では, 定量化モデルに特徴蒸留法を適用し, 一般化するためのFPQを提案する。
論文 参考訳(メタデータ) (2025-03-14T07:56:20Z) - QuEST: Stable Training of LLMs with 1-Bit Weights and Activations [27.644652093888745]
QuESTはスパースまたは量子化された言語モデルをトレーニングするための新しい方法である。
我々は4ビットで最適性を示し、1ビットの重みとアクティベーションの低い安定収束を示す。
Llama型アーキテクチャの実験により、QuESTはハードウェアサポートされた全範囲にわたる安定したスケーリング法則を導出することが示された。
論文 参考訳(メタデータ) (2025-02-07T15:23:34Z) - In-Distribution Consistency Regularization Improves the Generalization of Quantization-Aware Training [16.475151881506914]
量子化アウェアトレーニング(QAT)の一般化能力を向上させるために、一貫性規則化(CR)を提案する。
我々のアプローチは、現在の最先端QAT手法やFP手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-21T03:19:48Z) - Poster: Self-Supervised Quantization-Aware Knowledge Distillation [6.463799944811755]
量子化対応トレーニング(QAT)は、事前トレーニングされた完全精度モデルから始まり、再トレーニング中に量子化を実行する。
既存のQATの作業にはラベルの監督が必要であり、精度の低下による精度の低下に悩まされている。
本稿では,SQAKD(Self-Supervised Quantization-Aware Knowledge Distillation framework)を提案する。
論文 参考訳(メタデータ) (2023-09-22T23:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。