Fugu-MT 論文翻訳(概要): ZeroQAT: Your Quantization-aware Training but Efficient

論文の概要: ZeroQAT: Your Quantization-aware Training but Efficient

arxiv url: http://arxiv.org/abs/2509.00031v1
Date: Thu, 21 Aug 2025 01:18:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-07 09:10:15.255394
Title: ZeroQAT: Your Quantization-aware Training but Efficient
Title（参考訳）: ZeroQAT: 量子化を意識したトレーニングは効率的
Authors: Qitao Tan, Xiaoying Song, Jin Lu, Guoming Li, Jun Liu, Lingzi Hong, Caiwen Ding, Jundong Li, Xiaoming Zhai, Shaoyi Huang, Wei Niu, Geng Yuan,
Abstract要約: 量子化は、大規模言語モデル(LLM)のデプロイメントコストを削減する効果的な手法である。既存の低ビットPTQ法は, 局所再構成目標と下流性能の相違による累積誤差の伝搬と誤調整が生じるため, 精度劣化に悩まされる。我々は,ゼロオーダー最適化に基づくQATフレームワークZeroQATを提案する。
参考スコア（独自算出の注目度）: 53.25965863436039
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Quantization is an effective technique to reduce the deployment cost of large language models (LLMs), and post-training quantization (PTQ) has been widely studied due to its efficiency. However, existing low-bit PTQ methods suffer from accuracy degradation because their layer-wise optimization introduces cumulative error propagation and misalignment between local reconstruction objectives and downstream performance. While quantization-aware training (QAT) provides a principled solution, its reliance on backpropagation incurs prohibitive data, time, and memory costs, limiting its practicality. To address these challenges, we propose ZeroQAT, a zeroth-order optimization-based QAT framework. ZeroQAT leverages forward-only gradient estimation to eliminate the need for backpropagation, significantly reducing computational and memory overhead while retaining the benefits of end-to-end optimization. Moreover, ZeroQAT jointly learns quantized weights, weight clipping thresholds, and equivalent transformations to mitigate quantization error and handle activation outliers. Experiments demonstrate that ZeroQAT achieves the efficiency of PTQ while retaining the accuracy of QAT, offering a practical solution for high-quality low-bit quantization of LLMs.
Abstract（参考訳）: 量子化は大規模言語モデル(LLM)の展開コストを削減する効果的な手法であり、その効率性から後学習量子化(PTQ)が広く研究されている。しかし, 従来の低ビットPTQ法では, 局所再構成目標と下流性能の相違による累積誤差の伝播と誤調整が生じるため, 精度劣化に悩まされている。量子化対応トレーニング(QAT)は原則的なソリューションを提供するが、バックプロパゲーションへの依存は禁止データ、時間、メモリコストを発生させ、実用性を制限する。これらの課題に対処するため、ゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。 ZeroQATは、フォワードのみの勾配推定を活用して、バックプロパゲーションの必要性を排除し、エンドツーエンド最適化の利点を維持しながら、計算とメモリオーバーヘッドを大幅に削減する。さらに、ZeroQATは、量子化されたウェイト、ウェイトクリッピングしきい値、および等価な変換を共同で学習し、量子化エラーを緩和し、アクティベーションアウトリーを処理する。実験により、ZeroQATはQATの精度を維持しながらPTQの効率を向上し、LCMの高品質な低ビット量子化のための実用的なソリューションを提供することが示された。

論文の概要: ZeroQAT: Your Quantization-aware Training but Efficient

関連論文リスト