論文の概要: CafeQ: Calibration-free Quantization via Learned Transformations and Adaptive Rounding
- arxiv url: http://arxiv.org/abs/2511.19705v1
- Date: Mon, 24 Nov 2025 21:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.163614
- Title: CafeQ: Calibration-free Quantization via Learned Transformations and Adaptive Rounding
- Title(参考訳): CafeQ: 学習変換と適応ラウンドリングによる校正自由量子化
- Authors: Ziteng Sun, Adrian Benton, Samuel Kushnir, Asher Trockman, Vikas Singh, Suhas Diggavi, Ananda Theertha Suresh,
- Abstract要約: 学習後の量子化は、大規模言語モデルの提供コストを削減する効果的な方法である。
提案する緩和機構には、適応的な丸め、ランダムな回転変換、キャリブレーションデータを用いたトレーニング後の目標へのコミットなどが含まれる。
キャリブレーションデータにアクセスせずに変換と適応丸めを最適化するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 32.70843445702854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization is an effective method for reducing the serving cost of large language models, where the standard approach is to use a round-to-nearest quantization level scheme. However, this often introduces large errors due to outliers in the weights. Proposed mitigation mechanisms include applying adaptive rounding, random rotation transformations or committing to a post-training target using calibration data. Unfortunately, this reliance on calibration data can be severely limiting in some real-world scenarios as such data may be unavailable or subject to privacy regulations. In this paper, we propose algorithms to optimize transformations and adaptive rounding without access to any calibration data. The optimization is achieved by designing a suitable proxy function for the quantization loss without calibration data. To maintain inference efficiency, we perform structured matrix transformations for single matrices. For paired weights that interact directly in the computation graph, we use dual matrix transformations and adaptive rounding methods. We conduct experiments on Gemma 2 models, and observe consistent improvement over the baselines. For Gemma 2 9B quantization, our method improves the average benchmark score from 61.9 to 62.4 for 4-bit quantization and from 52.0 to 60.6 for 3-bit quantization, while adding less than 3% of computation overhead. Furthermore, our method achieves performance comparable to the commonly used GPTQ method, which requires calibration data.
- Abstract(参考訳): 学習後の量子化は、ラウンド・トゥ・アネレスト・量子化レベル・スキームを使用することで、大規模言語モデルのサービスコストを削減する効果的な方法である。
しかし、これは重みの外れによって大きなエラーを引き起こすことが多い。
提案する緩和機構には、適応的な丸め、ランダムな回転変換、キャリブレーションデータを用いたトレーニング後の目標へのコミットなどが含まれる。
残念ながら、キャリブレーションデータへの依存は、そのようなデータが利用できない場合やプライバシー規制の対象となる場合など、現実のいくつかのシナリオで著しく制限される可能性がある。
本稿では,キャリブレーションデータにアクセスすることなく,変換と適応ラウンドリングを最適化するアルゴリズムを提案する。
この最適化は、キャリブレーションデータなしで量子化損失に適したプロキシ関数を設計することで達成される。
推論効率を維持するため、単一行列に対して構造化行列変換を行う。
計算グラフで直接相互作用するペアウェイトに対して、双対行列変換と適応丸め法を用いる。
Gemma 2モデルの実験を行い、ベースラインに対する一貫した改善を観察する。
Gemma 2 9B量子化では,平均ベンチマークスコアは4ビット量子化では61.9から62.4に,3ビット量子化では52.0から60.6に改善され,計算オーバーヘッドは3%以下となった。
さらに, キャリブレーションデータを必要とするGPTQ法に匹敵する性能を実現する。
関連論文リスト
- CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - GPTAQ: Efficient Finetuning-Free Quantization for Asymmetric Calibration [21.474315621757594]
GPTAQは大規模トランスアーキテクチャを圧縮するための新しい微調整不要量子化法である。
各層を独立に校正する従来のGPTQ法とは異なり、我々は常に量子化層の出力と完全精度モデルの正確な出力とを一致させる。
GPTAQは実装が容易で、GPTQよりも20行のコードを使用するだけで、低ビット量子化下での性能を向上させることができる。
論文 参考訳(メタデータ) (2025-04-03T15:30:43Z) - OstQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting [20.944120156871108]
後学習量子化(PTQ)は、Large Language Models(LLMs)の圧縮・加速技術として広く採用されている。
LLM量子化における大きな課題は、不均一で重み付きデータ分布が量子化範囲を拡大し、ほとんどの値のビット精度を低下させることである。
本稿では、量子化空間におけるデータの空間利用率を測定することにより、変換データの量子化性を効果的に評価する新しい指標である量子化空間利用率(BrotherQSUR)を紹介する。
論文 参考訳(メタデータ) (2025-01-23T08:24:25Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - Sharp Calibrated Gaussian Processes [58.94710279601622]
キャリブレーションされたモデルを設計するための最先端のアプローチは、ガウス過程の後方分散を膨らませることに依存している。
本稿では,バニラガウス過程の後方分散にインスパイアされた計算を用いて,予測量子化を生成するキャリブレーション手法を提案する。
我々のアプローチは合理的な仮定の下で校正されたモデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-23T12:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。