論文の概要: Post-Training Quantization for Vision Transformer
- arxiv url: http://arxiv.org/abs/2106.14156v1
- Date: Sun, 27 Jun 2021 06:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 18:07:10.330795
- Title: Post-Training Quantization for Vision Transformer
- Title(参考訳): ビジョントランスのポストトレーニング量子化
- Authors: Zhenhua Liu, Yunhe Wang, Kai Han, Siwei Ma and Wen Gao
- Abstract要約: 本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
- 参考スコア(独自算出の注目度): 85.57953732941101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, transformer has achieved remarkable performance on a variety of
computer vision applications. Compared with mainstream convolutional neural
networks, vision transformers are often of sophisticated architectures for
extracting powerful feature representations, which are more difficult to be
developed on mobile devices. In this paper, we present an effective
post-training quantization algorithm for reducing the memory storage and
computational costs of vision transformers. Basically, the quantization task
can be regarded as finding the optimal low-bit quantization intervals for
weights and inputs, respectively. To preserve the functionality of the
attention mechanism, we introduce a ranking loss into the conventional
quantization objective that aims to keep the relative order of the
self-attention results after quantization. Moreover, we thoroughly analyze the
relationship between quantization loss of different layers and the feature
diversity, and explore a mixed-precision quantization scheme by exploiting the
nuclear norm of each attention map and output feature. The effectiveness of the
proposed method is verified on several benchmark models and datasets, which
outperforms the state-of-the-art post-training quantization algorithms. For
instance, we can obtain an 81.29\% top-1 accuracy using DeiT-B model on
ImageNet dataset with about 8-bit quantization.
- Abstract(参考訳): 近年、トランスフォーマーは様々なコンピュータビジョンアプリケーションで驚くべき性能を達成している。
主流の畳み込みニューラルネットワークと比較すると、視覚変換器はしばしば強力な特徴表現を抽出するための高度なアーキテクチャであり、モバイルデバイスで開発することがより困難である。
本稿では,視覚トランスフォーマーのメモリ記憶量と計算コストを削減できる,学習後量子化アルゴリズムを提案する。
基本的に、量子化タスクは、重みと入力の最適な低ビット量子化間隔を求めることができる。
注意機構の機能を維持するため,従来の量子化目的に対して,量子化後の自己着脱結果の相対順序を保つことを目的としたランキングロスを導入する。
さらに,異なる層間の量子化損失と特徴多様性の関係を徹底的に解析し,各注意マップと出力特徴の核規範を活用し,混合精度量子化手法を検討する。
提案手法の有効性を,いくつかのベンチマークモデルとデータセットで検証し,現状の学習後の量子化アルゴリズムより優れていることを示す。
例えば、画像Netデータセット上のDeiT-Bモデルを用いて、81.29\%のトップ-1の精度が得られる。
関連論文リスト
- RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - Near-Term Distributed Quantum Computation using Mean-Field Corrections
and Auxiliary Qubits [77.04894470683776]
本稿では,限られた情報伝達と保守的絡み合い生成を含む短期分散量子コンピューティングを提案する。
我々はこれらの概念に基づいて、変分量子アルゴリズムの断片化事前学習のための近似回路切断手法を作成する。
論文 参考訳(メタデータ) (2023-09-11T18:00:00Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - A Comprehensive Survey on Model Quantization for Deep Neural Networks in
Image Classification [0.0]
有望なアプローチは量子化であり、完全な精度の値は低ビット幅の精度で保存される。
本稿では、画像分類に焦点をあてて、量子化の概念と方法に関する包括的調査を行う。
本稿では,量子化DNNにおける浮動小数点演算の低コストなビット演算への置き換えと,量子化における異なる層の感度について説明する。
論文 参考訳(メタデータ) (2022-05-14T15:08:32Z) - PTQ4ViT: Post-training quantization for vision transformers with twin uniform quantization [12.136898590792754]
視覚変換器における量子化の問題を分析する。
そこで本研究では,これらのアクティベーション値の量子化誤差を低減するために,ツイン均一量子化法を提案する。
実験では、ImageNet分類タスクにおいて、量子化された視覚変換器は、ほぼロスレスな予測精度(8ビットの量子化で0.5%以下)を達成することを示した。
論文 参考訳(メタデータ) (2021-11-24T06:23:06Z) - Understanding and Overcoming the Challenges of Efficient Transformer
Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。
しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。
変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文 参考訳(メタデータ) (2021-09-27T10:57:18Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。