論文の概要: P$^2$-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer
- arxiv url: http://arxiv.org/abs/2405.19915v1
- Date: Thu, 30 May 2024 10:26:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 14:59:14.877873
- Title: P$^2$-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer
- Title(参考訳): P$^2$-ViT:フル量子化ビジョン変換器の2時間後量子化と高速化
- Authors: Huihong Shi, Xin Cheng, Wendong Mao, Zhongfeng Wang,
- Abstract要約: ビジョントランスフォーマー(ViT)はコンピュータビジョンタスクでは優れているが、メモリ消費と計算集約性がある。
この制限に対処するため、従来の研究はViT調整量子化アルゴリズムを探索してきたが、浮動小数点スケーリング係数は保たれた。
本稿では,最初のアンダーラインPower-of-Two(PoT)アンダーラインポストトレーニング量子化およびアクセラレーションフレームワークであるemphP$2$-ViTを提案する。
- 参考スコア(独自算出の注目度): 8.22044535304182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have excelled in computer vision tasks but are memory-consuming and computation-intensive, challenging their deployment on resource-constrained devices. To tackle this limitation, prior works have explored ViT-tailored quantization algorithms but retained floating-point scaling factors, which yield non-negligible re-quantization overhead, limiting ViTs' hardware efficiency and motivating more hardware-friendly solutions. To this end, we propose \emph{P$^2$-ViT}, the first \underline{P}ower-of-Two (PoT) \underline{p}ost-training quantization and acceleration framework to accelerate fully quantized ViTs. Specifically, {as for quantization,} we explore a dedicated quantization scheme to effectively quantize ViTs with PoT scaling factors, thus minimizing the re-quantization overhead. Furthermore, we propose coarse-to-fine automatic mixed-precision quantization to enable better accuracy-efficiency trade-offs. {In terms of hardware,} we develop {a dedicated chunk-based accelerator} featuring multiple tailored sub-processors to individually handle ViTs' different types of operations, alleviating reconfigurable overhead. Additionally, we design {a tailored row-stationary dataflow} to seize the pipeline processing opportunity introduced by our PoT scaling factors, thereby enhancing throughput. Extensive experiments consistently validate P$^2$-ViT's effectiveness. {Particularly, we offer comparable or even superior quantization performance with PoT scaling factors when compared to the counterpart with floating-point scaling factors. Besides, we achieve up to $\mathbf{10.1\times}$ speedup and $\mathbf{36.8\times}$ energy saving over GPU's Turing Tensor Cores, and up to $\mathbf{1.84\times}$ higher computation utilization efficiency against SOTA quantization-based ViT accelerators. Codes are available at \url{https://github.com/shihuihong214/P2-ViT}.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)はコンピュータビジョンタスクに優れていますが、メモリ消費と計算集約性があり、リソース制約のあるデバイスへのデプロイメントに挑戦しています。
この制限に対処するために、以前の研究はViT調整量子化アルゴリズムを探索してきたが、浮動小数点スケーリング係数は保持しており、これは非無視的な再量子化オーバーヘッドをもたらし、ViTのハードウェア効率を制限し、よりハードウェアフレンドリーなソリューションを動機付けている。
この目的のために、完全量子化された ViT を加速するために、最初の \underline{P}ower-of-Two (PoT) \underline{p}ost-training Quantization and accelerate framework である \emph{P$^2$-ViT} を提案する。
具体的には,PoTスケーリング因子を効果的に定量化する専用量子化スキームを探索し,再量子化オーバーヘッドを最小化する。
さらに,高精度かつ高精度なトレードオフを実現するために,粗大な自動混合精度量子化を提案する。
ハードウェアの分野では、ViTの異なるタイプの操作を個別に扱うために、複数の調整されたサブプロセッサを備えた専用のチャンクベースのアクセラレータを開発し、再構成可能なオーバーヘッドを軽減する。
さらに,PoTスケーリング要因によって導入されたパイプライン処理の機会を把握し,スループットを向上させるために,列定常データフローを調整して設計する。
大規模な実験は、P$^2$-ViTの有効性を一貫して評価する。
特に、浮動小数点スケーリング係数と比較して、PoTスケーリング係数と同等またはそれ以上の量子化性能を提供する。
さらに、最大$\mathbf{10.1\times}$スピードアップと$\mathbf{36.8\times}$GPUのチューリングテンソルコアに対する省エネ、最大$\mathbf{1.84\times}$SOTA量子化ベースのViTアクセラレータに対する高い計算効率を実現する。
コードは \url{https://github.com/shihuihong214/P2-ViT} で公開されている。
関連論文リスト
- M$^2$-ViT: Accelerating Hybrid Vision Transformers with Two-Level Mixed Quantization [3.9784270129141377]
We present M$2-ViT to accelerate Convolution-Transformer hybrid ViTs with two-level mixed Quantization。
具体的には、混合量子化精度と混合量子化スキームの両方を特徴とする、ハードウェアフレンドリーな2レベル混合量子化戦略(M$2$Q)を導入する。
論文 参考訳(メタデータ) (2024-10-10T11:16:57Z) - Accelerating PoT Quantization on Edge Devices [0.9558392439655012]
パワー・オブ・ツー(PoT)量子化のような一様でない量子化は、一様量子化よりもデータ分布によく一致する。
エッジデバイス上でPoT量子化されたDeep Neural Networkを高速化するための既存のパイプラインは、オープンソースではない。
本稿では,リソース制約のあるエッジデバイス上でのPoT量子化DNNのエンドツーエンド高速化のための,オープンソースのパイプラインであるPoTAccを提案する。
論文 参考訳(メタデータ) (2024-09-30T15:33:47Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - Trio-ViT: Post-Training Quantization and Acceleration for Softmax-Free Efficient Vision Transformer [5.141764719319689]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて、急速に開発され、顕著な性能を実現している。
しかし、その巨大なモデルサイズと集約的な計算により、ViTsの組み込みデバイスへの展開が妨げられ、量子化のような効果的なモデル圧縮手法が要求される。
本稿では,問題となるソフトマックスを排除したTrio-ViTを提案するとともに,低計算量で線形注意を統合できるTrio-ViTを提案し,それに応じてTrio-ViTを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:57:35Z) - I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization [49.17407185195788]
我々は,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。
I&S-ViTは3ビットのViT-Bの性能を50.68%向上させた。
論文 参考訳(メタデータ) (2023-11-16T13:07:47Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer [6.473688838974095]
本稿では,GPU上でのエンドツーエンドの推論高速化を実現するために,$textbfShiftAddViT$と呼ばれる新たな乗法モデルを提案する。
様々な2D/3D視覚タスクの実験は、提案したShiftAddViTの有効性を一貫して検証する。
論文 参考訳(メタデータ) (2023-06-10T13:53:41Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - HeatViT: Hardware-Efficient Adaptive Token Pruning for Vision
Transformers [35.92244135055901]
HeatViTは、組み込みFPGA上の視覚変換器(ViT)のための画像適応型トークンプルーニングフレームワークである。
HeatViTは既存のViTプルーニング研究と比較して0.7%$sim$8.9%高い精度を達成できる。
HeatViTは28.4%以上のコスト削減を実現している。
論文 参考訳(メタデータ) (2022-11-15T13:00:43Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。