論文の概要: Rethinking Residual Errors in Compensation-based LLM Quantization
- arxiv url: http://arxiv.org/abs/2604.07955v1
- Date: Thu, 09 Apr 2026 08:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.794168
- Title: Rethinking Residual Errors in Compensation-based LLM Quantization
- Title(参考訳): 補償型LCM量子化における残留誤差の再考
- Authors: Shuaiting Li, Juncan Deng, Kedong Xu, Rongtao Deng, Hong Gu, Minghan Jiang, Haibin Shen, Kejie Huang,
- Abstract要約: 我々は、各量子化層の出力をその完全精度と整合させる非対称キャリブレーションプロセスを導入する。
残差は前層の出力差だけでなく,各層内の補償重みと原重みとの差からも生じる。
提案手法はGPTQとGPTAQの両方とシームレスに統合され,量子化性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 15.416446372209924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methods based on weight compensation, which iteratively apply quantization and weight compensation to minimize the output error, have recently demonstrated remarkable success in quantizing Large Language Models (LLMs). The representative work, GPTQ, introduces several key techniques that make such iterative methods practical for LLMs with billions of parameters. GPTAQ extends this approach by introducing an asymmetric calibration process that aligns the output of each quantized layer with its full-precision counterpart, incorporating a residual error into the weight compensation framework. In this work, we revisit the formulation of the residual error. We identify a sub-optimal calibration objective in existing methods: during the intra-layer calibration process, they align the quantized output with the output from compensated weights, rather than the true output from the original full-precision model. Therefore, we redefine the objective to precisely align the quantized model's output with the original output of the full-precision model at each step. We then reveal that the residual error originates not only from the output difference of the preceding layer but also from the discrepancy between the compensated and original weights within each layer, which we name the 'compensation-aware error'. By inheriting the neuron decomposition technique from GPTAQ, we can efficiently incorporate this compensation-aware error into the weight update process. Extensive experiments on various LLMs and quantization settings demonstrate that our proposed enhancements integrate seamlessly with both GPTQ and GPTAQ, significantly improving their quantization performance. Our code is publicly available at https://github.com/list0830/ResComp.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の定量化に成功している。
代表的業績であるGPTQは、数十億のパラメータを持つLLMに対して、そのような反復的手法を実践するいくつかの重要な手法を導入している。
GPTAQは、重み補償フレームワークに残留誤差を組み込んだ、各量子化層の出力をその完全精度のものと整合させる非対称キャリブレーションプロセスを導入することにより、このアプローチを拡張した。
本研究では,残差の定式化について再検討する。
従来の手法では, 正解法ではなく, 補償重みからの出力と, 層内キャリブレーション過程において, 量子化された出力を一致させる。
そこで我々は,各ステップにおいて,量子化モデルの出力と完全精度モデルの元の出力とを正確に整合させる目的を再定義する。
次に、残差は前層の出力差だけでなく、各層内の補償重みと原重みとの相違から生じることを明らかにし、これを「補償対応誤差」と呼ぶ。
GPTAQからニューロン分解手法を継承することにより、この補償対応誤差を重み更新プロセスに効率的に組み込むことができる。
GPTQとGPTAQの両方とシームレスに統合し,量子化性能を著しく向上させた。
私たちのコードはhttps://github.com/list0830/ResCompで公開されています。
関連論文リスト
- End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - First-Order Error Matters: Accurate Compensation for Quantized Large Language Models [32.69069234109942]
後学習量子化(PTQ)は、大規模言語モデル(LLM)の圧縮に効率的なアプローチを提供する
既存の補償に基づくウェイトキャリブレーション法は、しばしば量子化誤差をモデル化するために2階テイラー展開に依存する。
本稿では,量子化誤差補償を改善するために,一階勾配項を明示的に組み込んだ新しいPTQ手法であるFOEMを提案する。
論文 参考訳(メタデータ) (2025-07-15T06:18:46Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - ASER: Activation Smoothing and Error Reconstruction for Large Language Model Quantization [18.017182472532415]
ASERは、SVDを白化して構築したLoRAスタイルの行列を用いた量子化誤差に対する低ランク補償からなるアルゴリズムである。
ASERは、典型的な外れ値を低ビットの値に量子化することができる。
論文 参考訳(メタデータ) (2024-11-12T12:52:04Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [28.67781845829386]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、モデル出力を無視した層ワイドユークリッド損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むために,出力適応量子化(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。