論文の概要: Cat: Post-Training Quantization Error Reduction via Cluster-based Affine Transformation
- arxiv url: http://arxiv.org/abs/2509.26277v2
- Date: Tue, 07 Oct 2025 09:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 13:19:51.436475
- Title: Cat: Post-Training Quantization Error Reduction via Cluster-based Affine Transformation
- Title(参考訳): Cat: クラスタベースのアフィン変換による後量子化誤差低減
- Authors: Ali Zoljodi, Radu Timofte, Masoud Daneshtalab,
- Abstract要約: Post-Training Quantization (PTQ)は、フル精度(FP)値を量子化および圧縮データタイプに変換することにより、ディープニューラルネットワークのメモリフットプリントと計算オーバーヘッドを低減する。
PTQはQAT(Quantization-Aware Training)よりもコスト効率が高いが、低ビット量子化条件下での精度劣化に非常に敏感である。
本稿ではクラスタベースのアフィン変換(CAT)を提案する。クラスタ固有のパラメータを用いて,LQ出力をFP出力と整合させる。
- 参考スコア(独自算出の注目度): 47.791962198275066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-Training Quantization (PTQ) reduces the memory footprint and computational overhead of deep neural networks by converting full-precision (FP) values into quantized and compressed data types. While PTQ is more cost-efficient than Quantization-Aware Training (QAT), it is highly susceptible to accuracy degradation under a low-bit quantization (LQ) regime (e.g., 2-bit). Affine transformation is a classical technique used to reduce the discrepancy between the information processed by a quantized model and that processed by its full-precision counterpart; however, we find that using plain affine transformation, which applies a uniform affine parameter set for all outputs, worsens the results in low-bit PTQ. To address this, we propose Cluster-based Affine Transformation (CAT), an error-reduction framework that employs cluster-specific parameters to align LQ outputs with FP counterparts. CAT refines LQ outputs with only a negligible number of additional parameters, without requiring fine-tuning of the model or quantization parameters. We further introduce a novel PTQ framework integrated with CAT. Experiments on ImageNet-1K show that this framework consistently outperforms prior PTQ methods across diverse architectures and LQ settings, achieving up to 53.18% Top-1 accuracy on W2A2 ResNet-18. Moreover, CAT enhances existing PTQ baselines by more than 3% when used as a plug-in. We plan to release our implementation alongside the publication of this paper.
- Abstract(参考訳): Post-Training Quantization (PTQ)は、フル精度(FP)値を量子化および圧縮データタイプに変換することにより、ディープニューラルネットワークのメモリフットプリントと計算オーバーヘッドを低減する。
PTQはQAT(Quantization-Aware Training)よりもコスト効率が高いが、低ビット量子化(LQ)方式(例:2ビット)の下での精度劣化に非常に敏感である。
アフィン変換は、量子化モデルによって処理された情報と、その完全精度で処理された情報との差を低減するために用いられる古典的手法であるが、全ての出力に対して一様アフィンパラメータセットを適用するプレーンアフィン変換を用いることで、低ビットPTQの結果が悪化する。
これを解決するために,クラスタ固有のパラメータを用いて,LQ出力をFP出力と整合させるエラー低減フレームワークであるCluster-based Affine Transformation (CAT)を提案する。
CATは、モデルや量子化パラメータの微調整を必要とせずに、LQ出力を無視可能な数の追加パラメータだけで洗練する。
CATと統合された新しいPTQフレームワークについても紹介する。
ImageNet-1Kの実験では、このフレームワークは様々なアーキテクチャとLQ設定でPTQメソッドよりも一貫して優れており、W2A2 ResNet-18では最大53.18%の精度でTop-1が達成されている。
さらに、CATはプラグインとして使用する場合、既存のPTQベースラインを3%以上拡張する。
本論文の発行と同時に実装を公表する予定です。
関連論文リスト
- Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - PTQAT: A Hybrid Parameter-Efficient Quantization Algorithm for 3D Perception Tasks [9.463776523295303]
ポストトレーニング量子化(PTQ)と量子アウェアトレーニング(QAT)は、2つの主流モデル量子化アプローチを表す。
本稿では,3次元知覚ネットワークの効率的な展開のための新しいハイブリッド量子化アルゴリズムPTQATを提案する。
論文 参考訳(メタデータ) (2025-08-14T11:55:21Z) - FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - Towards Accurate Post-training Quantization for Reparameterized Models [6.158896686945439]
現在のポストトレーニング量子化法(PTQ)は、しばしばかなりの精度の劣化を引き起こす。
これは主にチャネル特異的およびサンプル特異的な外れ値によって引き起こされる。
本稿では、量子化された再パラメータ化モデルの精度を維持する新しいフレームワークであるRepAPQを提案する。
論文 参考訳(メタデータ) (2024-02-25T15:42:12Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。