論文の概要: RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization
- arxiv url: http://arxiv.org/abs/2402.05628v1
- Date: Thu, 8 Feb 2024 12:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 15:02:33.782352
- Title: RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization
- Title(参考訳): RepQuant: 大規模変圧器モデルの測定後正確な量子化に向けて
- Authors: Zhikai Li, Xuewen Liu, Jing Zhang, and Qingyi Gu
- Abstract要約: ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
- 参考スコア(独自算出の注目度): 8.827794405944637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large transformer models have demonstrated remarkable success. Post-training
quantization (PTQ), which requires only a small dataset for calibration and
avoids end-to-end retraining, is a promising solution for compressing these
large models. Regrettably, existing PTQ methods typically exhibit non-trivial
performance loss. We find that the performance bottleneck stems from
over-consideration of hardware compatibility in the quantization process,
compelling them to reluctantly employ simple quantizers, albeit at the expense
of accuracy. With the above insights, we propose RepQuant, a novel PTQ
framework with quantization-inference decoupling paradigm to address the above
issues. RepQuant employs complex quantizers in the quantization process and
simplified quantizers in the inference process, and performs mathematically
equivalent transformations between the two through quantization scale
reparameterization, thus ensuring both accurate quantization and efficient
inference. More specifically, we focus on two components with extreme
distributions: LayerNorm activations and Softmax activations. Initially, we
apply channel-wise quantization and log$\sqrt{2}$ quantization, respectively,
which are tailored to their distributions. In particular, for the former, we
introduce a learnable per-channel dual clipping scheme, which is designed to
efficiently identify outliers in the unbalanced activations with fine
granularity. Then, we reparameterize the scales to hardware-friendly layer-wise
quantization and log2 quantization for inference. Moreover, quantized weight
reconstruction is seamlessly integrated into the above procedure to further
push the performance limits. Extensive experiments are performed on different
large-scale transformer variants on multiple tasks, including vision, language,
and multi-modal transformers, and RepQuant encouragingly demonstrates
significant performance advantages.
- Abstract(参考訳): 大型変圧器モデルは目覚ましい成功を収めた。
キャリブレーションに小さなデータセットしか必要とせず、エンドツーエンドの再トレーニングを避けるptq(post-training quantization)は、これら大規模モデルを圧縮するための有望なソリューションである。
既存のPTQメソッドは、通常、非自明なパフォーマンス損失を示す。
性能ボトルネックは、量子化プロセスにおけるハードウェア互換性の過度な考慮によるものであり、正確さを犠牲にして、単純な量子化器を不愉快に採用することに起因する。
そこで本稿では,上記の問題に対処するために,量子化参照脱結合パラダイムを備えた新しいptqフレームワークであるrepquantを提案する。
repquantは、量子化過程において複素量子化器と、推論過程において単純化された量子化器を使用し、量子化スケールの再パラメータ化を通じて2つの間の数学的に等価な変換を行い、正確な量子化と効率的な推論の両方を保証する。
具体的には、LayerNormアクティベーションとSoftmaxアクティベーションの2つのコンポーネントに焦点を当てます。
まず、チャネルワイド量子化とlog$\sqrt{2}$量子化をそれぞれ適用し、分布に合わせて調整する。
特に,前者に対しては,不均衡なアクティベーションにおける外れ値を細粒度で効率よく識別する,学習可能なチャネル単位の二重クリッピング方式を導入する。
次に,ハードウェアフレンドリーなレイヤワイズ量子化とlog2量子化にスケールを再パラメータ化し,推論を行う。
さらに、上述の手順に量子化重量再構成をシームレスに統合し、さらなる性能限界を推し進める。
視覚、言語、マルチモーダルトランスフォーマーを含む複数のタスクの様々な大規模変圧器で広範な実験が行われ、repquantは重要な性能上の利点を奨励的に示している。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Scalable quantum dynamics compilation via quantum machine learning [7.31922231703204]
変分量子コンパイル(VQC)法は、高精度を維持しつつゲートコストを低減するために変分最適化を用いる。
1次元におけるシステムサイズと精度の両面で、我々のアプローチが最先端のコンパイル結果を上回ることが示されている(1$D)。
VQCを2次元(2次元)ストリップに準1次元処理で拡張し、標準的なトロッタライズ法よりも大きな資源優位性を示す。
論文 参考訳(メタデータ) (2024-09-24T18:00:00Z) - MRQ:Support Multiple Quantization Schemes through Model Re-Quantization [0.17499351967216337]
ディープラーニングモデルは、様々な固定ポイントハードウェアで容易に定量化できない。
モデル再量子化と呼ばれる新しいタイプのモデル量子化手法を提案する。
再量子化プロセスから得られたモデルは、Echo ShowデバイスでNNAにうまくデプロイされている。
論文 参考訳(メタデータ) (2023-08-01T08:15:30Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - Understanding and Overcoming the Challenges of Efficient Transformer
Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。
しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。
変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文 参考訳(メタデータ) (2021-09-27T10:57:18Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。