論文の概要: Trio-ViT: Post-Training Quantization and Acceleration for Softmax-Free Efficient Vision Transformer
- arxiv url: http://arxiv.org/abs/2405.03882v3
- Date: Mon, 30 Sep 2024 07:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:20.351779
- Title: Trio-ViT: Post-Training Quantization and Acceleration for Softmax-Free Efficient Vision Transformer
- Title(参考訳): Trio-ViT:Softmax-free Efficient Vision Transformerのための後処理量子化と高速化
- Authors: Huihong Shi, Haikuo Shao, Wendong Mao, Zhongfeng Wang,
- Abstract要約: 視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて、急速に開発され、顕著な性能を実現している。
しかし、その巨大なモデルサイズと集約的な計算により、ViTsの組み込みデバイスへの展開が妨げられ、量子化のような効果的なモデル圧縮手法が要求される。
本稿では,問題となるソフトマックスを排除したTrio-ViTを提案するとともに,低計算量で線形注意を統合できるTrio-ViTを提案し,それに応じてTrio-ViTを提案する。
- 参考スコア(独自算出の注目度): 5.141764719319689
- License:
- Abstract: Motivated by the huge success of Transformers in the field of natural language processing (NLP), Vision Transformers (ViTs) have been rapidly developed and achieved remarkable performance in various computer vision tasks. However, their huge model sizes and intensive computations hinder ViTs' deployment on embedded devices, calling for effective model compression methods, such as quantization. Unfortunately, due to the existence of hardware-unfriendly and quantization-sensitive non-linear operations, particularly {Softmax}, it is non-trivial to completely quantize all operations in ViTs, yielding either significant accuracy drops or non-negligible hardware costs. In response to challenges associated with \textit{standard ViTs}, we focus our attention towards the quantization and acceleration for \textit{efficient ViTs}, which not only eliminate the troublesome Softmax but also integrate linear attention with low computational complexity, and propose Trio-ViT accordingly. Specifically, at the algorithm level, we develop a {tailored post-training quantization engine} taking the unique activation distributions of Softmax-free efficient ViTs into full consideration, aiming to boost quantization accuracy. Furthermore, at the hardware level, we build an accelerator dedicated to the specific Convolution-Transformer hybrid architecture of efficient ViTs, thereby enhancing hardware efficiency. Extensive experimental results consistently prove the effectiveness of our Trio-ViT framework. {Particularly, we can gain up to $\uparrow$$\mathbf{3.6}\times$, $\uparrow$$\mathbf{5.0}\times$, and $\uparrow$$\mathbf{7.3}\times$ FPS under comparable accuracy over state-of-the-art ViT accelerators, as well as $\uparrow$$\mathbf{6.0}\times$, $\uparrow$$\mathbf{1.5}\times$, and $\uparrow$$\mathbf{2.1}\times$ DSP efficiency.} Codes are available at \url{https://github.com/shihuihong214/Trio-ViT}.
- Abstract(参考訳): 自然言語処理(NLP)分野におけるトランスフォーマーの大きな成功により、視覚トランスフォーマー(ViT)は急速に発展し、様々なコンピュータビジョンタスクにおいて顕著な性能を発揮している。
しかし、その巨大なモデルサイズと集約的な計算により、ViTsの組み込みデバイスへの展開が妨げられ、量子化のような効果的なモデル圧縮手法が要求される。
残念なことに、ハードウェアに親しみやすく量子化に敏感な非線形演算、特に {Softmax} が存在するため、ViTの全ての操作を完全に定量化することは簡単ではない。
ここでは, 問題となるソフトマックスを除去するだけでなく, 計算複雑性の低い線形注意を組み込んだTrio-ViTを提案する。
具体的には,アルゴリズムレベルでは,ソフトマックスフリーで効率的なViTのユニークな活性化分布をフルに考慮し,量子化の精度を高めることを目的とした,‘調整後量子化エンジン’を開発する。
さらに、ハードウェアレベルでは、効率的なViTの特定のConvolution-Transformerハイブリッドアーキテクチャに特化したアクセラレータを構築し、ハードウェア効率を向上させる。
Trio-ViTフレームワークの有効性を常に実証する実験結果が得られた。
特に、$\uparrow$$\mathbf{3.6}\times$, $\uparrow$$\mathbf{5.0}\times$, and $\uparrow$$\mathbf{7.3}\times$ FPSは、最先端のViTアクセラレータと同等の精度で、$\uparrow$$\mathbf{6.0}\times$, $\uparrow$$\mathbf{1.5}\times$, $\uparrow$\mathbf{2.1}\times$ DSP効率で得ることができる。
コードは \url{https://github.com/shihuihong214/Trio-ViT} で公開されている。
関連論文リスト
- M$^2$-ViT: Accelerating Hybrid Vision Transformers with Two-Level Mixed Quantization [3.9784270129141377]
We present M$2-ViT to accelerate Convolution-Transformer hybrid ViTs with two-level mixed Quantization。
具体的には、混合量子化精度と混合量子化スキームの両方を特徴とする、ハードウェアフレンドリーな2レベル混合量子化戦略(M$2$Q)を導入する。
論文 参考訳(メタデータ) (2024-10-10T11:16:57Z) - P$^2$-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer [8.22044535304182]
ビジョントランスフォーマー(ViT)はコンピュータビジョンタスクでは優れているが、メモリ消費と計算集約性がある。
この制限に対処するため、従来の研究はViT調整量子化アルゴリズムを探索してきたが、浮動小数点スケーリング係数は保たれた。
本稿では,最初のアンダーラインPower-of-Two(PoT)アンダーラインポストトレーニング量子化およびアクセラレーションフレームワークであるemphP$2$-ViTを提案する。
論文 参考訳(メタデータ) (2024-05-30T10:26:36Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer [6.473688838974095]
本稿では,GPU上でのエンドツーエンドの推論高速化を実現するために,$textbfShiftAddViT$と呼ばれる新たな乗法モデルを提案する。
様々な2D/3D視覚タスクの実験は、提案したShiftAddViTの有効性を一貫して検証する。
論文 参考訳(メタデータ) (2023-06-10T13:53:41Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - HeatViT: Hardware-Efficient Adaptive Token Pruning for Vision
Transformers [35.92244135055901]
HeatViTは、組み込みFPGA上の視覚変換器(ViT)のための画像適応型トークンプルーニングフレームワークである。
HeatViTは既存のViTプルーニング研究と比較して0.7%$sim$8.9%高い精度を達成できる。
HeatViTは28.4%以上のコスト削減を実現している。
論文 参考訳(メタデータ) (2022-11-15T13:00:43Z) - ViTCoD: Vision Transformer Acceleration via Dedicated Algorithm and
Accelerator Co-Design [42.46121663652989]
ビジョントランスフォーマー(ViT)は、様々なビジョンタスクにおいて最先端のパフォーマンスを実現している。
しかし、ViTsの自己保持モジュールは依然として大きなボトルネックである。
本稿では,ViTの高速化を目的とした,ViTCoDと呼ばれる専用アルゴリズムとアクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T04:07:23Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Unified Visual Transformer Compression [102.26265546836329]
本稿では,3つの有効な手法をシームレスに組み立てる,統一的なViT圧縮フレームワークを提案する。
予算制約のあるエンドツーエンドの最適化フレームワークを定式化し、モデルウェイトを共同学習し、レイヤーワイドプルーニング比/マスクを作成し、構成をスキップする。
実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。
論文 参考訳(メタデータ) (2022-03-15T20:38:22Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - HAT: Hardware-Aware Transformers for Efficient Natural Language
Processing [78.48577649266018]
ハードウェア・アウェア・トランスフォーマー(HAT)は、リソース制約のあるハードウェアプラットフォーム上で低遅延推論を可能にするように設計されている。
設計空間のすべての候補をカバーする$textitSuperTransformer$をトレーニングし、重量共有を備えた$textitSubTransformer$を効率的に生成します。
4つの機械翻訳タスクの実験により、HATは異なるハードウェアの効率的なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2020-05-28T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。