論文の概要: M$^2$-ViT: Accelerating Hybrid Vision Transformers with Two-Level Mixed Quantization
- arxiv url: http://arxiv.org/abs/2410.09113v1
- Date: Thu, 10 Oct 2024 11:16:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 16:38:28.632688
- Title: M$^2$-ViT: Accelerating Hybrid Vision Transformers with Two-Level Mixed Quantization
- Title(参考訳): M$^2$-ViT: 2レベル混合量子化によるハイブリッドビジョン変換器の高速化
- Authors: Yanbiao Liang, Huihong Shi, Zhongfeng Wang,
- Abstract要約: We present M$2-ViT to accelerate Convolution-Transformer hybrid ViTs with two-level mixed Quantization。
具体的には、混合量子化精度と混合量子化スキームの両方を特徴とする、ハードウェアフレンドリーな2レベル混合量子化戦略(M$2$Q)を導入する。
- 参考スコア(独自算出の注目度): 3.9784270129141377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Vision Transformers (ViTs) have achieved significant success, their intensive computations and substantial memory overheads challenge their deployment on edge devices. To address this, efficient ViTs have emerged, typically featuring Convolution-Transformer hybrid architectures to enhance both accuracy and hardware efficiency. While prior work has explored quantization for efficient ViTs to marry the best of efficient hybrid ViT architectures and quantization, it focuses on uniform quantization and overlooks the potential advantages of mixed quantization. Meanwhile, although several works have studied mixed quantization for standard ViTs, they are not directly applicable to hybrid ViTs due to their distinct algorithmic and hardware characteristics. To bridge this gap, we present M$^2$-ViT to accelerate Convolution-Transformer hybrid efficient ViTs with two-level mixed quantization. Specifically, we introduce a hardware-friendly two-level mixed quantization (M$^2$Q) strategy, characterized by both mixed quantization precision and mixed quantization schemes (i.e., uniform and power-of-two), to exploit the architectural properties of efficient ViTs. We further build a dedicated accelerator with heterogeneous computing engines to transform our algorithmic benefits into real hardware improvements. Experimental results validate our effectiveness, showcasing an average of $80\%$ energy-delay product (EDP) saving with comparable quantization accuracy compared to the prior work.
- Abstract(参考訳): Vision Transformer (ViT) は大きな成功を収めているが、その計算量とメモリオーバーヘッドはエッジデバイスへの展開に挑戦している。
これを解決するために効率的なViTが登場し、通常はコンボリューション・トランスフォーマーハイブリッドアーキテクチャによって精度とハードウェア効率が向上している。
従来の研究は、効率的なハイブリッドViTアーキテクチャと量子化のベストを組み込むための効率的なViTの量子化について検討してきたが、均一な量子化に焦点を当て、混合量子化の潜在的な利点を見落としている。
一方、いくつかの研究が標準的なViTの混合量子化を研究しているが、アルゴリズムやハードウェアの特性が異なるため、ハイブリッドViTには直接適用できない。
このギャップを埋めるため、M$^2$-ViTを導入し、2レベル混合量子化による畳み込み変換器ハイブリッドVTを高速化する。
具体的には、ハードウェアフレンドリーな2値混合量子化(M$^2$Q)戦略を導入し、効率的なViTのアーキテクチャ特性を活用するために、混合量子化精度と混合量子化スキーム(一様および二のパワー)を両立させる。
さらに、アルゴリズムの利点を実際のハードウェア改善に変換するために、異種コンピューティングエンジンを備えた専用アクセラレータを構築しています。
実験の結果, エネルギー遅延生成物 (EDP) の省エネ効果は, 従来の作業と同等の定量化精度で, 平均80 % の省エネ効果を示した。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - P$^2$-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer [8.22044535304182]
ビジョントランスフォーマー(ViT)はコンピュータビジョンタスクでは優れているが、メモリ消費と計算集約性がある。
この制限に対処するため、従来の研究はViT調整量子化アルゴリズムを探索してきたが、浮動小数点スケーリング係数は保たれた。
本稿では,最初のアンダーラインPower-of-Two(PoT)アンダーラインポストトレーニング量子化およびアクセラレーションフレームワークであるemphP$2$-ViTを提案する。
論文 参考訳(メタデータ) (2024-05-30T10:26:36Z) - Trio-ViT: Post-Training Quantization and Acceleration for Softmax-Free Efficient Vision Transformer [5.141764719319689]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて、急速に開発され、顕著な性能を実現している。
しかし、その巨大なモデルサイズと集約的な計算により、ViTsの組み込みデバイスへの展開が妨げられ、量子化のような効果的なモデル圧縮手法が要求される。
本稿では,問題となるソフトマックスを排除したTrio-ViTを提案するとともに,低計算量で線形注意を統合できるTrio-ViTを提案し,それに応じてTrio-ViTを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:57:35Z) - An FPGA-Based Reconfigurable Accelerator for Convolution-Transformer Hybrid EfficientViT [5.141764719319689]
本稿では,VTのハードウェア効率フロンティアを向上するために,FPGAベースのEfficientViTアクセラレータを提案する。
具体的には、軽量な畳み込みや注意を含む様々な操作タイプを効率的にサポートする再構成可能なアーキテクチャを設計する。
実験の結果,我々の加速器はスループット780.2 GOPS,エネルギー効率105.1 GOPS/Wを200MHzで達成した。
論文 参考訳(メタデータ) (2024-03-29T15:20:33Z) - I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization [49.17407185195788]
我々は,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。
I&S-ViTは3ビットのViT-Bの性能を50.68%向上させた。
論文 参考訳(メタデータ) (2023-11-16T13:07:47Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Q-HyViT: Post-Training Quantization of Hybrid Vision Transformers with Bridge Block Reconstruction for IoT Systems [23.261607952479377]
視覚変換器(ViT)は、分類、検出、セグメンテーションを含む多くのアプリケーションで畳み込みニューラルネットワークに取って代わられている。
本稿では,効率的なハイブリッドViTの量子化を初めて行うポストトレーニング量子化手法を提案する。
従来のPTQ法と比較して, 8ビットで17.73%, 6ビットで29.75%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-03-22T13:41:22Z) - HeatViT: Hardware-Efficient Adaptive Token Pruning for Vision
Transformers [35.92244135055901]
HeatViTは、組み込みFPGA上の視覚変換器(ViT)のための画像適応型トークンプルーニングフレームワークである。
HeatViTは既存のViTプルーニング研究と比較して0.7%$sim$8.9%高い精度を達成できる。
HeatViTは28.4%以上のコスト削減を実現している。
論文 参考訳(メタデータ) (2022-11-15T13:00:43Z) - Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision
Transformer with Mixed-Scheme Quantization [78.18328503396057]
コンピュータビジョンタスクにおいて、視覚変換器(ViT)は大幅に精度が向上している。
本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-10T05:54:46Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。