論文の概要: Regularized Calibration with Successive Rounding for Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2602.05902v1
- Date: Thu, 05 Feb 2026 17:18:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.080739
- Title: Regularized Calibration with Successive Rounding for Post-Training Quantization
- Title(参考訳): 後処理量子化のための逐次ラウンドリングによる正規化校正
- Authors: Seohyeon Cha, Huancheng Chen, Dongjun Kim, Haoran Zhang, Kevin Chan, Gustavo de Veciana, Haris Vikalo,
- Abstract要約: 後トレーニング量子化(PTQ)は、事前トレーニングされた重みを再トレーニングせずに低ビットフォーマットにマッピングすることで効率的な推論を可能にする。
対称キャリブレーションと非対称キャリブレーションの補間が正規化の一形態であることを示す。
非対称キャリブレーションを自然に組み込んだ単純な逐次丸めの手順を導出する。
- 参考スコア(独自算出の注目度): 32.31386646428613
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) deliver robust performance across diverse applications, yet their deployment often faces challenges due to the memory and latency costs of storing and accessing billions of parameters. Post-training quantization (PTQ) enables efficient inference by mapping pretrained weights to low-bit formats without retraining, but its effectiveness depends critically on both the quantization objective and the rounding procedure used to obtain low-bit weight representations. In this work, we show that interpolating between symmetric and asymmetric calibration acts as a form of regularization that preserves the standard quadratic structure used in PTQ while providing robustness to activation mismatch. Building on this perspective, we derive a simple successive rounding procedure that naturally incorporates asymmetric calibration, as well as a bounded-search extension that allows for an explicit trade-off between quantization quality and the compute cost. Experiments across multiple LLM families, quantization bit-widths, and benchmarks demonstrate that the proposed bounded search based on a regularized asymmetric calibration objective consistently improves perplexity and accuracy over PTQ baselines, while incurring only modest and controllable additional computational cost.
- Abstract(参考訳): 大規模言語モデル(LLM)は多様なアプリケーションにまたがって堅牢なパフォーマンスを提供するが、数十億のパラメータを保存およびアクセスする際のメモリとレイテンシのコストのために、そのデプロイメントは困難に直面することが多い。
ポストトレーニング量子化(PTQ)は、事前学習した重みを再トレーニングせずに低ビット形式にマッピングすることで効率的な推論を可能にするが、その有効性は、低ビットの重み表現を得るために使用される量子化目的と丸め手順の両方に大きく依存する。
本研究では、対称キャリブレーションと非対称キャリブレーションの補間が、PTQで使用される標準二次構造を保ちながら、アクティベーションミスマッチに対する堅牢性を提供する正則化の一形態として機能することを示す。
この観点から、非対称キャリブレーションを自然に取り入れた単純なラウンドリング手順と、量子化品質と計算コストとの明確なトレードオフを可能にする有界探索拡張を導出する。
複数のLLMファミリ、量子化ビット幅、ベンチマーク実験により、正規化された非対称キャリブレーション目的に基づく有界探索がPTQベースラインの複雑さと精度を一貫して改善し、モデストで制御可能な追加計算コストのみを発生させることを示した。
関連論文リスト
- FAQ: Mitigating Quantization Error via Regenerating Calibration Data with Family-Aware Quantization [9.164335834135551]
textbfFAQ(Family-Aware Quantization)は、キャリブレーションデータ再生フレームワークである。
高度に一貫した知識システムを用いて、一連の高忠実度校正データを再生する。
元のキャリブレーションデータによるベースラインと比較して、精度損失を最大28.5%削減する。
論文 参考訳(メタデータ) (2026-01-16T11:22:23Z) - Transferable Equivariant Quantum Circuits for TSP: Generalization Bounds and Empirical Validation [3.652509571098291]
我々は、TSP(Traveing Salesman Problem)に着目し、最適化のための量子強化学習(QRL)の一般化の課題に対処する。
これを軽減するために、TSPグラフの置換対称性を尊重する等変量子回路(EQC)を採用した。
この対称性を意識したアンサッツは、訓練されたパラメータを$n-$cityのトレーニングインスタンスからより大きなm-city問題へのゼロショット転送を可能にした。
論文 参考訳(メタデータ) (2025-10-16T10:25:14Z) - Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Rethinking Post-Training Quantization: Introducing a Statistical Pre-Calibration Approach [22.25748046511075]
ポストトレーニング量子化(PTQ)技術は、精度を維持するためにキャリブレーションプロセスに依存する。
本稿では,キャリブレーションに基づくPTQ手法の先駆者と見なせる重み適応型PTQ法を提案する。
提案手法は,最も一般的なキャリブレーションに基づくPTQ法と同等に動作可能であることを示す。
論文 参考訳(メタデータ) (2025-01-15T19:44:15Z) - TTAQ: Towards Stable Post-training Quantization in Continuous Domain Adaptation [3.7024647541541014]
トレーニング後の量子化(PTQ)は、完全な精度のモデルを小さなキャリブレーションセット上で低ビット表現に量子化することで、ハードウェアの過大なコストを削減する。
従来のPTQメソッドは、動的で絶え間なく変化する現実世界のシナリオで失敗することが多い。
本稿では、従来のPTQの性能劣化に対処するため、TTAQと呼ばれるテスト時間適応のための新しい安定な量子化プロセスを提案する。
論文 参考訳(メタデータ) (2024-12-13T06:34:59Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。