論文の概要: ERQ: Error Reduction for Post-Training Quantization of Vision Transformers
- arxiv url: http://arxiv.org/abs/2407.06794v1
- Date: Tue, 9 Jul 2024 12:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 18:07:16.761337
- Title: ERQ: Error Reduction for Post-Training Quantization of Vision Transformers
- Title(参考訳): ERQ:視覚変換器のトレーニング後量子化における誤差低減
- Authors: Yunshan Zhong, Jiawei Hu, You Huang, Yuxin Zhang, Rongrong Ji,
- Abstract要約: 視覚変換器(ViT)のPTQ(Post-training Quantization)は,圧縮モデルの効率性から注目されている。
本稿では,活性化と重み量子化に起因する量子化誤差を逐次低減する2段階のPTQ手法であるERQを提案する。
ERQはW3A4 ViT-Sの精度を22.36%上回っている。
- 参考スコア(独自算出の注目度): 48.740630807085566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) for vision transformers (ViTs) has garnered significant attention due to its efficiency in compressing models. However, existing methods typically overlook the intricate interdependence between quantized weight and activation, leading to considerable quantization error. In this paper, we propose ERQ, a two-step PTQ approach meticulously crafted to sequentially reduce the quantization error arising from activation and weight quantization. ERQ first introduces Activation quantization error reduction (Aqer) that strategically formulates the minimization of activation quantization error as a Ridge Regression problem, tackling it by updating weights with full-precision. Subsequently, ERQ introduces Weight quantization error reduction (Wqer) that adopts an iterative approach to mitigate the quantization error induced by weight quantization. In each iteration, an empirically derived, efficient proxy is employed to refine the rounding directions of quantized weights, coupled with a Ridge Regression solver to curtail weight quantization error. Experimental results attest to the effectiveness of our approach. Notably, ERQ surpasses the state-of-the-art GPTQ by 22.36% in accuracy for W3A4 ViT-S.
- Abstract(参考訳): 視覚変換器(ViT)のPTQ(Post-training Quantization)は,圧縮モデルの効率性から注目されている。
しかし、既存の方法は通常、量子化された重みとアクティベーションの間の複雑な相互依存性を見落とし、かなりの量子化誤差をもたらす。
本稿では,活性化と重み量子化に起因する量子化誤差を逐次低減する2段階のPTQ手法であるERQを提案する。
ERQはまず、アクティベーション量子化誤差の最小化をリッジ回帰問題として戦略的に定式化したアクティベーション量子化誤差低減(Aqer)を導入し、それをフル精度で重みを更新することで対処する。
その後、ERQはウェイト量子化による量子化誤差を軽減するために反復的なアプローチを採用するウェイト量子化誤差低減(Wqer)を導入している。
各イテレーションにおいて、量子化された重みの丸め方向を改良するために、実験的に導出された効率的なプロキシが、重みの量子化誤差を縮めるためにリッジ回帰解法と組み合わせられる。
提案手法の有効性を実験的に検証した。
特に、ERQはW3A4 ViT-Sの精度を22.36%上回っている。
関連論文リスト
- OAC: Output-adaptive Calibration for Accurate Post-training Quantization [30.115888331426515]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、キャリブレーションされた層単位で$ell$損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むための出力適応型(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - Transition Rate Scheduling for Quantization-Aware Training [26.792400685888175]
量子化対応トレーニング(QAT)は、ウェイト/アクティベーションのビット精度を低下させるために、トレーニング中の量子化プロセスをシミュレートする。
勾配ベースを用いて遅延重みを更新することで、間接的に量子化された重みを学習する。
本稿では,量子化重みの遷移数を明示的に制御する遷移率(TR)スケジューリング手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T04:12:36Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - AWEQ: Post-Training Quantization with Activation-Weight Equalization for
Large Language Models [0.18416014644193066]
AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。
我々はさらに等化法を改良し、量子化バイアスの誤差を軽減し、モデルの堅牢性を確保する。
論文 参考訳(メタデータ) (2023-11-02T15:18:22Z) - MRQ:Support Multiple Quantization Schemes through Model Re-Quantization [0.17499351967216337]
ディープラーニングモデルは、様々な固定ポイントハードウェアで容易に定量化できない。
モデル再量子化と呼ばれる新しいタイプのモデル量子化手法を提案する。
再量子化プロセスから得られたモデルは、Echo ShowデバイスでNNAにうまくデプロイされている。
論文 参考訳(メタデータ) (2023-08-01T08:15:30Z) - Weight Re-Mapping for Variational Quantum Algorithms [54.854986762287126]
変動量子回路(VQC)における重み付けの考え方を紹介する。
我々は,8つの分類データセットに対する影響を評価するために,7つの異なる重み再マッピング関数を用いる。
以上の結果から,重量再マッピングによりVQCの収束速度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-09T09:42:21Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。