論文の概要: Patch-wise Mixed-Precision Quantization of Vision Transformer
- arxiv url: http://arxiv.org/abs/2305.06559v1
- Date: Thu, 11 May 2023 04:34:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 16:09:45.012516
- Title: Patch-wise Mixed-Precision Quantization of Vision Transformer
- Title(参考訳): 視覚トランスフォーマのパッチワイズ混合精度量子化
- Authors: Junrui Xiao, Zhikai Li, Lianwei Yang and Qingyi Gu
- Abstract要約: 視覚変換器(ViT)は、強力な特徴表現の学習を保証するために複雑な自己注意計算を必要とする。
本稿では,ViTの効率的な推定のためのパッチワイド混合精度量子化(PMQ)を提案する。
- 参考スコア(独自算出の注目度): 2.3104000011280403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As emerging hardware begins to support mixed bit-width arithmetic
computation, mixed-precision quantization is widely used to reduce the
complexity of neural networks. However, Vision Transformers (ViTs) require
complex self-attention computation to guarantee the learning of powerful
feature representations, which makes mixed-precision quantization of ViTs still
challenging. In this paper, we propose a novel patch-wise mixed-precision
quantization (PMQ) for efficient inference of ViTs. Specifically, we design a
lightweight global metric, which is faster than existing methods, to measure
the sensitivity of each component in ViTs to quantization errors. Moreover, we
also introduce a pareto frontier approach to automatically allocate the optimal
bit-precision according to the sensitivity. To further reduce the computational
complexity of self-attention in inference stage, we propose a patch-wise module
to reallocate bit-width of patches in each layer. Extensive experiments on the
ImageNet dataset shows that our method greatly reduces the search cost and
facilitates the application of mixed-precision quantization to ViTs.
- Abstract(参考訳): 新興ハードウェアが混合ビット幅演算処理をサポートし始めるにつれて、ニューラルネットワークの複雑さを軽減するために混合精度量子化が広く用いられている。
しかし、視覚変換器(ViT)は、強力な特徴表現の学習を保証するために複雑な自己アテンション計算を必要とする。
本稿では,ViTの効率的な推定のためのパッチワイド混合精度量子化(PMQ)を提案する。
具体的には,vits内の各成分の量子化誤差に対する感度を測定するため,既存の手法よりも高速で軽量なグローバルメトリックを設計する。
さらに,その感度に応じて最適なビット精度を自動的に割り当てるためのパレートフロンティア手法も導入する。
推論段階における自己注意の計算複雑性をさらに軽減するため,各層にパッチのビット幅を再配置するパッチワイズモジュールを提案する。
ImageNetデータセットの大規模な実験により,提案手法は検索コストを大幅に削減し,混合精度の量子化をViTに適用しやすくする。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision
Transformer [7.041718444626999]
視覚変換器(MPTQ-ViT)のための混合精度後学習量子化フレームワークを提案する。
我々のViT,DeiT,Swinに関する実験では,ImageNetデータセットのSOTAと比較して精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-01-26T14:25:15Z) - CPT-V: A Contrastive Approach to Post-Training Quantization of Vision
Transformers [12.987397453149537]
我々は、量子化スケールを摂動することで、既に量子化されているネットワークの精度を改善する方法を見つける。
CTP-Vは、自己監督的な方法で量子化モデルと完全精度モデルの特徴を対比する。
完全に量子化されたViTベースのトップ1の精度を10.30%、0.78%、および3ビット、4ビット、8ビットの重み量子化レベルで0.1%向上させる。
論文 参考訳(メタデータ) (2022-11-17T16:41:31Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Understanding and Overcoming the Challenges of Efficient Transformer
Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。
しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。
変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文 参考訳(メタデータ) (2021-09-27T10:57:18Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Effective and Fast: A Novel Sequential Single Path Search for
Mixed-Precision Quantization [45.22093693422085]
混合精度量子化モデルは、異なる層の感度に応じて異なる量子化ビット精度にマッチし、優れた性能を達成できます。
いくつかの制約に従ってディープニューラルネットワークにおける各層の量子化ビット精度を迅速に決定することは難しい問題である。
混合精度量子化のための新規なシーケンシャルシングルパス探索(SSPS)法を提案する。
論文 参考訳(メタデータ) (2021-03-04T09:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。