論文の概要: On the Importance of a Multi-Scale Calibration for Quantization
- arxiv url: http://arxiv.org/abs/2602.07465v1
- Date: Sat, 07 Feb 2026 09:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.636558
- Title: On the Importance of a Multi-Scale Calibration for Quantization
- Title(参考訳): 量子化のためのマルチスケール校正の重要性について
- Authors: Seungwoo Son, Ingyu Seong, Junhan Kim, Hyemi Jang, Yongkweon Jeon,
- Abstract要約: 後学習量子化(PTQ)は、大規模言語モデル(LLM)を効率的に展開するための基盤となる。
マトリシカ(Matryoshka)を提案する。
最先端のLCM(例えば Qwen3, Gemma3, LLaMA3)の実験では、MaCaは低ビット量子化の下で常に精度を向上することを示した。
- 参考スコア(独自算出の注目度): 9.237936671153749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) is a cornerstone for efficiently deploying large language models (LLMs), where a small calibration set critically affects quantization performance. However, conventional practices rely on random sequences of fixed length, overlooking the variable-length nature of LLM inputs. Input length directly influences the activation distribution and, consequently, the weight importance captured by the Hessian, which in turn affects quantization outcomes. As a result, Hessian estimates derived from fixed-length calibration may fail to represent the true importance of weights across diverse input scenarios. We propose MaCa (Matryoshka Calibration), a simple yet effective method for length-aware Hessian construction. MaCa (i) incorporates multi-scale sequence length information into Hessian estimation and (ii) regularizes each sequence as an independent sample, yielding a more stable and fruitful Hessian for accurate quantization. Experiments on state-of-the-art LLMs (e.g., Qwen3, Gemma3, LLaMA3) demonstrate that MaCa consistently improves accuracy under low bit quantization, offering a lightweight enhancement compatible with existing PTQ frameworks. To the best of our knowledge, this is the first work to systematically highlight the role of multi-scale calibration in LLM quantization.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、大規模言語モデル(LLM)を効率的に展開するための基盤であり、小さなキャリブレーションセットが量子化性能に重要な影響を及ぼす。
しかし、従来のプラクティスは、LLM入力の可変長の性質を見渡すために、固定長のランダムなシーケンスに依存している。
入力長は活性化分布に直接影響を与え、したがってヘッセンによって捕獲された重みの重みは量子化の結果に影響を及ぼす。
その結果、固定長キャリブレーションから導かれるヘッセン推定は、様々な入力シナリオにおける重みの真の重要性を表現できない可能性がある。
マトリシカ校正法(Matryoshka Calibration)を提案する。
MaCa
(i)ヘッセン推定とマルチスケールシーケンス長情報
(ii) それぞれの配列を独立したサンプルとして正則化し、より安定で実りのあるヘッセンを正確な量子化のために生成する。
最先端のLCM(例えば Qwen3, Gemma3, LLaMA3)の実験では、MaCaは低ビット量子化下での精度を一貫して改善し、既存のPTQフレームワークと互換性のある軽量な拡張を提供する。
我々の知る限りでは、LLM量子化におけるマルチスケールキャリブレーションの役割を体系的に強調するのはこれが初めてである。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Rethinking Post-Training Quantization: Introducing a Statistical Pre-Calibration Approach [22.25748046511075]
ポストトレーニング量子化(PTQ)技術は、精度を維持するためにキャリブレーションプロセスに依存する。
本稿では,キャリブレーションに基づくPTQ手法の先駆者と見なせる重み適応型PTQ法を提案する。
提案手法は,最も一般的なキャリブレーションに基づくPTQ法と同等に動作可能であることを示す。
論文 参考訳(メタデータ) (2025-01-15T19:44:15Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。