論文の概要: PTQ4ViT: Post-training quantization for vision transformers with twin uniform quantization
- arxiv url: http://arxiv.org/abs/2111.12293v3
- Date: Sun, 23 Jun 2024 00:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 05:34:02.858250
- Title: PTQ4ViT: Post-training quantization for vision transformers with twin uniform quantization
- Title(参考訳): PTQ4ViT:双対均一量子化を用いた視覚変換器のポストトレーニング量子化
- Authors: Zhihang Yuan, Chenhao Xue, Yiqi Chen, Qiang Wu, Guangyu Sun,
- Abstract要約: 視覚変換器における量子化の問題を分析する。
そこで本研究では,これらのアクティベーション値の量子化誤差を低減するために,ツイン均一量子化法を提案する。
実験では、ImageNet分類タスクにおいて、量子化された視覚変換器は、ほぼロスレスな予測精度(8ビットの量子化で0.5%以下)を達成することを示した。
- 参考スコア(独自算出の注目度): 12.136898590792754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is one of the most effective methods to compress neural networks, which has achieved great success on convolutional neural networks (CNNs). Recently, vision transformers have demonstrated great potential in computer vision. However, previous post-training quantization methods performed not well on vision transformer, resulting in more than 1% accuracy drop even in 8-bit quantization. Therefore, we analyze the problems of quantization on vision transformers. We observe the distributions of activation values after softmax and GELU functions are quite different from the Gaussian distribution. We also observe that common quantization metrics, such as MSE and cosine distance, are inaccurate to determine the optimal scaling factor. In this paper, we propose the twin uniform quantization method to reduce the quantization error on these activation values. And we propose to use a Hessian guided metric to evaluate different scaling factors, which improves the accuracy of calibration at a small cost. To enable the fast quantization of vision transformers, we develop an efficient framework, PTQ4ViT. Experiments show the quantized vision transformers achieve near-lossless prediction accuracy (less than 0.5% drop at 8-bit quantization) on the ImageNet classification task.
- Abstract(参考訳): 量子化は、畳み込みニューラルネットワーク(CNN)において大きな成功を収めたニューラルネットワークを圧縮する最も効果的な方法の1つである。
近年,コンピュータビジョンにおいて視覚トランスフォーマーが大きな可能性を示している。
しかし、以前のトレーニング後の量子化法は視覚変換器ではうまく動作せず、8ビット量子化においても1%以上の精度が低下した。
そこで我々は,視覚変換器における量子化の問題を分析する。
ソフトマックス関数とGELU関数の活性化値の分布はガウス分布とは全く異なる。
また、MSEやコサイン距離などの一般的な量子化指標が不正確なため、最適スケーリング係数が決定できないことも観察した。
本稿では,これらのアクティベーション値の量子化誤差を低減するために,ツイン均一量子化法を提案する。
また,Hessian Guided Metricsを用いて異なるスケーリング要因の評価を行い,キャリブレーションの精度を低コストで向上することを提案する。
視覚変換器の高速量子化を実現するため,効率的なフレームワークPTQ4ViTを開発した。
実験では、ImageNet分類タスクにおいて、量子化された視覚変換器は、ほぼロスレスな予測精度(8ビットの量子化で0.5%以下)を達成することを示した。
関連論文リスト
- MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision
Transformer [7.041718444626999]
視覚変換器(MPTQ-ViT)のための混合精度後学習量子化フレームワークを提案する。
我々のViT,DeiT,Swinに関する実験では,ImageNetデータセットのSOTAと比較して精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-01-26T14:25:15Z) - GHN-QAT: Training Graph Hypernetworks to Predict Quantization-Robust
Parameters of Unseen Limited Precision Neural Networks [80.29667394618625]
Graph Hypernetworks(GHN)は、さまざまな未知のCNNアーキテクチャのパラメータを驚くほど高い精度で予測することができる。
予備研究は、8ビットおよび4ビットの量子化CNNの量子化-ロバストパラメータの予測にGHNを使うことを検討した。
4ビットの量子化CNNのGHN予測パラメータの量子化精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-09-24T23:01:00Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Least squares binary quantization of neural networks [19.818087225770967]
値が-1と1にマップされる二項量子化に焦点を当てる。
2ビット対1ビット量子化のパリト最適性に触発されて、証明可能な最小二乗誤差を持つ新しい2ビット量子化を導入する。
論文 参考訳(メタデータ) (2020-01-09T00:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。