論文の概要: Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction
- arxiv url: http://arxiv.org/abs/2407.06794v2
- Date: Tue, 04 Feb 2025 04:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:54:48.282850
- Title: Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction
- Title(参考訳): 誤差低減による視覚変換器の高精度後量子化に向けて
- Authors: Yunshan Zhong, You Huang, Jiawei Hu, Yuxin Zhang, Rongrong Ji,
- Abstract要約: ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
- 参考スコア(独自算出の注目度): 48.740630807085566
- License:
- Abstract: Post-training quantization (PTQ) for vision transformers (ViTs) has received increasing attention from both academic and industrial communities due to its minimal data needs and high time efficiency. However, many current methods fail to account for the complex interactions between quantized weights and activations, resulting in significant quantization errors and suboptimal performance. This paper presents ERQ, an innovative two-step PTQ method specifically crafted to reduce quantization errors arising from activation and weight quantization sequentially. The first step, Activation quantization error reduction (Aqer), first applies Reparameterization Initialization aimed at mitigating initial quantization errors in high-variance activations. Then, it further mitigates the errors by formulating a Ridge Regression problem, which updates the weights maintained at full-precision using a closed-form solution. The second step, Weight quantization error reduction (Wqer), first applies Dual Uniform Quantization to handle weights with numerous outliers, which arise from adjustments made during Reparameterization Initialization, thereby reducing initial weight quantization errors. Then, it employs an iterative approach to further tackle the errors. In each iteration, it adopts Rounding Refinement that uses an empirically derived, efficient proxy to refine the rounding directions of quantized weights, complemented by a Ridge Regression solver to reduce the errors. Comprehensive experimental results demonstrate ERQ's superior performance across various ViTs variants and tasks. For example, ERQ surpasses the state-of-the-art GPTQ by a notable 36.81% in accuracy for W3A4 ViT-S. Our codes are available at https://github.com/zysxmu/ERQ.
- Abstract(参考訳): 視覚変換器(ViT)のPTQ(Post-training Quantization)は,データ要求の最小化と高効率化により,学術的,産業的にも注目されている。
しかし、現在の多くの手法では、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーや準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
最初のステップであるアクティベーション量子化誤差低減(Aqer)は、まず、高分散アクティベーションにおける初期量子化誤差の緩和を目的とした再パラメータ化初期化を適用する。
さらに、閉形式解を用いて、完全精度で維持される重みを更新するリッジ回帰問題を定式化することにより、誤りを緩和する。
第2のステップであるウェイト量子化誤差低減 (Wqer) は、最初に2次均一量子化を適用して、多くのアウトレーヤで重みを扱い、これは再パラメータ化初期化時の調整によって生じるもので、初期重み量子化誤差を減少させる。
そして、エラーにさらに対処するために反復的なアプローチを採用する。
各イテレーションでラウンドリング・リファインメントを採用し、経験的に導出され効率的なプロキシを使用して量子化重みのラウンドリング方向を洗練し、リッジ回帰解法で補完してエラーを低減する。
総合的な実験結果から、ERQ は様々な ViT 変種やタスクにまたがる優れた性能を示している。
例えば、ERQは最先端のGPTQを超え、W3A4 ViT-Sの精度は36.81%である。
私たちのコードはhttps://github.com/zysxmu/ERQ.comで公開されています。
関連論文リスト
- PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - GWQ: Gradient-Aware Weight Quantization for Large Language Models [63.89099994367657]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットにすることで、リソース制約のあるデバイス上で動作することが可能になり、しばしばパフォーマンスの低下につながる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - QERA: an Analytical Framework for Quantization Error Reconstruction [12.110441045050223]
重みを極めて低い精度に定量化することへの関心が高まり、結果として生じる誤差を低ランクで高精度なエラー再構成項で相殺する。
量子化と低ランク近似の組み合わせは、アダプタベースのパラメータ効率の微調整法の両方で人気がある。
本稿では,QERA(Quantization Error Reconstruction Analysis)という解析フレームワークを定式化し,その問題に対するクローズドフォームのソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-08T13:37:34Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [30.115888331426515]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、キャリブレーションされた層単位で$ell$損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むための出力適応型(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - A2Q+: Improving Accumulator-Aware Weight Quantization [45.14832807541816]
量子化技術は一般的に、重みとアクティベーションの精度を制限することにより、ニューラルネットワークの推論コストを削減している。
最近の研究は、トレーニング中にモデルの重みを制約し、推論中にターゲットのアキュムレータビット幅を安全に使用するための量子化対応トレーニング手法である、アキュムレータ対応量子化(A2Q)を提案する。
我々は、事前訓練された浮動小数点チェックポイントから量子化重みを初期化する新しい戦略であるA2Q+を紹介する。
論文 参考訳(メタデータ) (2024-01-19T00:27:34Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - Improving Convergence for Quantum Variational Classifiers using Weight
Re-Mapping [60.086820254217336]
近年、量子機械学習は変分量子回路(VQC)の利用が大幅に増加した。
重みを2pi$の間隔に不明瞭にマッピングするために、VQCの重み再マッピングを導入する。
修正されていないウェイトを用いて、Wineデータセットの重量再マッピングにより、テスト精度が10%向上したことを実証した。
論文 参考訳(メタデータ) (2022-12-22T13:23:19Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。