論文の概要: Saliency-Aware Regularized Quantization Calibration for Large Language Models
- arxiv url: http://arxiv.org/abs/2605.05693v2
- Date: Fri, 08 May 2026 04:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:23.021582
- Title: Saliency-Aware Regularized Quantization Calibration for Large Language Models
- Title(参考訳): 大規模言語モデルのための正則化量子化校正法
- Authors: Yanlong Zhao, Xiaoyuan Cheng, Huihang Liu, Baihua He, Xinyu Zhang, Harrison Bo Hua Zhu, Wenlong Chen, Li Zeng, Zhuo Sun,
- Abstract要約: トレーニング後の量子化(PTQ)は、大きな言語モデル(LLM)をメモリとレイテンシの制約下でデプロイするための効果的なアプローチである。
既存のPTQ手法の多くは、所定のキャリブレーションデータセット上の層次再構成誤差を最小限に抑えて量子化パラメータを決定する。
提案された正則化は、キャリブレーションの間、量子化された重みが元の重みに近づき続けることを奨励し、推論時の一般化を改善させる。
- 参考スコア(独自算出の注目度): 12.382772717031772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) is an effective approach for deploying large language models (LLMs) under memory and latency constraints. Most existing PTQ methods determine quantization parameters by minimizing a layer-wise reconstruction error on a predetermined calibration dataset, typically optimized via either scale search or Gram-based methods. However, from the perspective of generalization risk, existing PTQ calibration objectives based solely on empirical reconstruction error over limited or unrepresentative calibration data may move the quantized weights away from the original floating-point weights, potentially degrading downstream performance. To address this issue, we propose \emph{Regularized Quantization Calibration} (RQC), a unified framework that augments standard PTQ objectives with a regularizer that explicitly controls weight deviation from the original weights. We further generalize this framework to incorporate a saliency-aware regularizer, resulting in \emph{Saliency-Aware Regularized Quantization Calibration} (SARQC). The proposed regularization encourages quantized weights to remain close to the original weights during calibration, leading to improved generalization at inference time. SARQC integrates seamlessly into existing PTQ pipelines and enhances both scale-search-based and Gram-based methods under a unified formulation. Extensive experiments on dense and Mixture-of-Experts LLMs demonstrate consistent improvements in perplexity and zero-shot accuracy, without introducing additional inference overhead.
- Abstract(参考訳): トレーニング後の量子化(PTQ)は、大きな言語モデル(LLM)をメモリとレイテンシの制約下でデプロイするための効果的なアプローチである。
既存のPTQ手法の多くは、所定のキャリブレーションデータセット上の階層的再構成誤差を最小化することで、量子化パラメータを決定する。
しかし、一般化リスクの観点からは、限定的または非表現的キャリブレーションデータに対する経験的再構成誤差のみに基づく既存のPTQキャリブレーション目的は、量子化重みを元の浮動小数点重みから遠ざけ、下流性能を低下させる可能性がある。
この問題に対処するために, 標準PTQ目標を正規化することにより, 元の重みからの重みずれを明示的に制御する統一フレームワークである 'emph{Regularized Quantization Calibration} (RQC) を提案する。
さらに、このフレームワークを一般化して、Saliency-Aware Regularized Quantization Calibration (SARQC) を組み込むことで、その結果、emph{Saliency-Aware Regularized Quantization Calibration} (SARQC) となる。
提案された正則化は、キャリブレーションの間、量子化された重みが元の重みに近づき続けることを奨励し、推論時の一般化を改善させる。
SARQCは既存のPTQパイプラインにシームレスに統合し、統一的な定式化の下でスケール検索とグラムベースの手法の両方を強化する。
密集型および混合型LCMの広汎な実験は、追加の推論オーバーヘッドを導入することなく、難易度とゼロショット精度が一貫した改善を示した。
関連論文リスト
- Regularized Calibration with Successive Rounding for Post-Training Quantization [32.31386646428613]
後トレーニング量子化(PTQ)は、事前トレーニングされた重みを再トレーニングせずに低ビットフォーマットにマッピングすることで効率的な推論を可能にする。
対称キャリブレーションと非対称キャリブレーションの補間が正規化の一形態であることを示す。
非対称キャリブレーションを自然に組み込んだ単純な逐次丸めの手順を導出する。
論文 参考訳(メタデータ) (2026-02-05T17:18:02Z) - FAQ: Mitigating Quantization Error via Regenerating Calibration Data with Family-Aware Quantization [9.164335834135551]
textbfFAQ(Family-Aware Quantization)は、キャリブレーションデータ再生フレームワークである。
高度に一貫した知識システムを用いて、一連の高忠実度校正データを再生する。
元のキャリブレーションデータによるベースラインと比較して、精度損失を最大28.5%削減する。
論文 参考訳(メタデータ) (2026-01-16T11:22:23Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Rethinking Post-Training Quantization: Introducing a Statistical Pre-Calibration Approach [22.25748046511075]
ポストトレーニング量子化(PTQ)技術は、精度を維持するためにキャリブレーションプロセスに依存する。
本稿では,キャリブレーションに基づくPTQ手法の先駆者と見なせる重み適応型PTQ法を提案する。
提案手法は,最も一般的なキャリブレーションに基づくPTQ法と同等に動作可能であることを示す。
論文 参考訳(メタデータ) (2025-01-15T19:44:15Z) - GWQ: Gradient-Aware Weight Quantization for Large Language Models [56.22507677736051]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットに圧縮することで、リソース制約のあるデバイスにデプロイできる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [28.67781845829386]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、モデル出力を無視した層ワイドユークリッド損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むために,出力適応量子化(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。