論文の概要: First-Order Error Matters: Accurate Compensation for Quantized Large Language Models
- arxiv url: http://arxiv.org/abs/2507.11017v1
- Date: Tue, 15 Jul 2025 06:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.002195
- Title: First-Order Error Matters: Accurate Compensation for Quantized Large Language Models
- Title(参考訳): 1次誤り:量子化大言語モデルに対する正確な補償
- Authors: Xingyu Zheng, Haotong Qin, Yuye Li, Jiakai Wang, Jinyang Guo, Michele Magno, Xianglong Liu,
- Abstract要約: 後学習量子化(PTQ)は、大規模言語モデル(LLM)の圧縮に効率的なアプローチを提供する
既存の補償に基づくウェイトキャリブレーション法は、しばしば量子化誤差をモデル化するために2階テイラー展開に依存する。
本稿では,量子化誤差補償を改善するために,一階勾配項を明示的に組み込んだ新しいPTQ手法であるFOEMを提案する。
- 参考スコア(独自算出の注目度): 32.69069234109942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) offers an efficient approach to compressing large language models (LLMs), significantly reducing memory access and computational costs. Existing compensation-based weight calibration methods often rely on a second-order Taylor expansion to model quantization error, under the assumption that the first-order term is negligible in well-trained full-precision models. However, we reveal that the progressive compensation process introduces accumulated first-order deviations between latent weights and their full-precision counterparts, making this assumption fundamentally flawed. To address this, we propose FOEM, a novel PTQ method that explicitly incorporates first-order gradient terms to improve quantization error compensation. FOEM approximates gradients by directly computing the difference between latent and full-precision weights, avoiding the high cost and limited generalization of backpropagation-based gradient computation. This approach introduces minimal additional computational overhead. Moreover, FOEM leverages precomputed Cholesky factors to efficiently recover the inverse of Hessian submatrices in real time. Extensive experiments across a wide range of models and benchmarks demonstrate that FOEM consistently outperforms the classical GPTQ method. In 3-bit weight-only quantization, FOEM reduces the perplexity of Llama3-8B by 89.6%, and improves the 5-shot MMLU accuracy of Llama3-70B from 51.7% to 74.9%, approaching the full-precision performance of 78.6%. Furthermore, FOEM can be seamlessly integrated with advanced techniques such as GPTAQ and SpinQuant, yielding additional improvements under the challenging W4A4KV4 setting, and further narrowing the accuracy gap with full-precision baselines beyond what current state-of-the-art methods achieve. The code is available at https://github.com/Xingyu-Zheng/FOEM.
- Abstract(参考訳): 後学習量子化(PTQ)は、大きな言語モデル(LLM)を圧縮する効率的なアプローチを提供し、メモリアクセスと計算コストを大幅に削減する。
既存の補償に基づくウェイトキャリブレーション法は、よく訓練された完全精度モデルでは一階項が無視可能であるという仮定の下で、モデル量子化誤差に対するテイラーの2階展開に依存する。
しかし, 進行的補償プロセスでは, 潜時重と完全精度の偏差が蓄積され, この仮定に根本的な欠陥が生じることが明らかとなった。
そこで本研究では,量子化誤差補償を改善するために,一階勾配項を明示的に組み込んだ新しいPTQ手法であるFOEMを提案する。
FOEMは遅延重みと完全精度重みの差を直接計算することで勾配を近似し、バックプロパゲーションに基づく勾配計算の高コストと限定的な一般化を避ける。
このアプローチは、最小限の計算オーバーヘッドをもたらす。
さらに、FOEMは事前に計算されたコレスキー因子を利用して、ヘッセン部分行列の逆行列をリアルタイムで効率的に回復する。
幅広いモデルとベンチマークにわたる大規模な実験は、FOEMが古典的なGPTQ法よりも一貫して優れていることを示した。
3ビットの重量のみの量子化では、FOEMはLlama3-8Bのパープレキシティを89.6%削減し、Llama3-70Bの5ショットMMLU精度を51.7%から74.9%に改善し、78.6%の精度に近づいた。
さらに、FOEMはGPTAQやSpinQuantといった先進的な技術とシームレスに統合することができ、挑戦的なW4A4KV4設定の下でさらなる改善が得られ、また、現在の最先端の手法が達成している以上の精度のベースラインによる精度ギャップを狭めることができる。
コードはhttps://github.com/Xingyu-Zheng/FOEMで入手できる。
関連論文リスト
- MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。
SLIMはモデル精度を最大5.66%(LLaMA-2-7B)まで改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - QERA: an Analytical Framework for Quantization Error Reconstruction [12.110441045050223]
重みを極めて低い精度に定量化することへの関心が高まり、結果として生じる誤差を低ランクで高精度なエラー再構成項で相殺する。
量子化と低ランク近似の組み合わせは、アダプタベースのパラメータ効率の微調整法の両方で人気がある。
本稿では,QERA(Quantization Error Reconstruction Analysis)という解析フレームワークを定式化し,その問題に対するクローズドフォームのソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-08T13:37:34Z) - Continuous Approximations for Improving Quantization Aware Training of LLMs [4.435218424434634]
実効的なモデル圧縮手法である量子化アウェアトレーニング(QAT)を提案し,量子化後の性能劣化を低減する。
本稿では, 伝統的にSTE (Straight-Through Estimator) とクランプ関数によって近似された, 丸み関数上のQAT過程に対する2つの連続近似を導入する。
両方の手法を適用することで、量子化モデルのWikiText-v2データセット上のパープレキシティ(PPL)は9.0815に達し、ベースラインで9.9621を上回った。
論文 参考訳(メタデータ) (2024-10-06T04:33:06Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - Minimize Quantization Output Error with Bias Compensation [35.43358597502087]
量子化は、ディープニューラルネットワーク(DNN)のメモリ使用量と計算強度を低減する有望な方法である
本稿では,出力誤差を定量化せずに精度を向上する手法を提案する。
視覚モデルと大規模言語モデルの実験を行う。
論文 参考訳(メタデータ) (2024-04-02T12:29:31Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - APTQ: Attention-aware Post-Training Mixed-Precision Quantization for Large Language Models [12.006605064782567]
APTQ (Attention-aware Post-Training Mixed-Precision Quantization) を提案する。
我々は、ヘッセントレースを混合精度量子化の感度指標として利用し、情報精度の低下を確実にする。
実験の結果、APTQは従来の量子化法を超え、平均4ビット幅と5.22パープレキシティを達成した。
論文 参考訳(メタデータ) (2024-02-21T07:45:22Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。