論文の概要: ViTA: A Vision Transformer Inference Accelerator for Edge Applications
- arxiv url: http://arxiv.org/abs/2302.09108v1
- Date: Fri, 17 Feb 2023 19:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 20:27:10.010106
- Title: ViTA: A Vision Transformer Inference Accelerator for Edge Applications
- Title(参考訳): ViTA:エッジアプリケーションのためのビジョントランスフォーマー推論アクセラレータ
- Authors: Shashank Nag, Gourav Datta, Souvik Kundu, Nitin Chandrachoodan, Peter
A. Beerel
- Abstract要約: ViT、Swin Transformer、Transformer-in-Transformerといったビジョントランスモデルは近年、コンピュータビジョンタスクにおいて大きな注目を集めている。
これらは計算量が多く、リソース制約のあるエッジデバイスにデプロイするのは難しい。
本稿では、リソース制約のあるエッジコンピューティングデバイスをターゲットにしたビジョントランスフォーマーモデル推論用ハードウェアアクセラレータViTAを提案する。
- 参考スコア(独自算出の注目度): 4.3469216446051995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer models, such as ViT, Swin Transformer, and
Transformer-in-Transformer, have recently gained significant traction in
computer vision tasks due to their ability to capture the global relation
between features which leads to superior performance. However, they are
compute-heavy and difficult to deploy in resource-constrained edge devices.
Existing hardware accelerators, including those for the closely-related BERT
transformer models, do not target highly resource-constrained environments. In
this paper, we address this gap and propose ViTA - a configurable hardware
accelerator for inference of vision transformer models, targeting
resource-constrained edge computing devices and avoiding repeated off-chip
memory accesses. We employ a head-level pipeline and inter-layer MLP
optimizations, and can support several commonly used vision transformer models
with changes solely in our control logic. We achieve nearly 90% hardware
utilization efficiency on most vision transformer models, report a power of
0.88W when synthesised with a clock of 150 MHz, and get reasonable frame rates
- all of which makes ViTA suitable for edge applications.
- Abstract(参考訳): vit, swin transformer, transformer-in-transformer などの視覚トランスフォーマーモデルは、最近コンピュータビジョンタスクにおいて、優れたパフォーマンスをもたらす機能間のグローバルな関係を捉える能力により、大きな注目を集めている。
しかし、それらは計算量が多く、リソースに制約のあるエッジデバイスへのデプロイが難しい。
近縁なBERTトランスモデルを含む既存のハードウェアアクセラレータは、リソース制約の高い環境をターゲットとしない。
本稿では、このギャップに対処し、視覚トランスフォーマーモデルの推論のための構成可能なハードウェアアクセラレータvitaを提案し、リソース制約のあるエッジコンピューティングデバイスをターゲットにし、繰り返しオフチップメモリアクセスを回避する。
我々はヘッドレベルパイプラインと層間MPP最適化を採用しており、制御ロジックにのみ変更を加えることで、よく使われるビジョントランスフォーマーモデルをサポートすることができる。
我々は、ほとんどの視覚トランスフォーマーモデルにおいて90%近いハードウェア利用効率を達成し、150mhzのクロックで合成すると0.88wの電力を報告し、合理的なフレームレートを得る。
関連論文リスト
- An FPGA-Based Reconfigurable Accelerator for Convolution-Transformer Hybrid EfficientViT [5.141764719319689]
本稿では,VTのハードウェア効率フロンティアを向上するために,FPGAベースのEfficientViTアクセラレータを提案する。
具体的には、軽量な畳み込みや注意を含む様々な操作タイプを効率的にサポートする再構成可能なアーキテクチャを設計する。
実験の結果,我々の加速器はスループット780.2 GOPS,エネルギー効率105.1 GOPS/Wを200MHzで達成した。
論文 参考訳(メタデータ) (2024-03-29T15:20:33Z) - Compressing Vision Transformers for Low-Resource Visual Learning [7.662469543657508]
Vision Transformer(ViT)とその変種は、画像分類、オブジェクト検出、セマンティックセグメンテーションといったタスクにおいて最先端の精度を提供する。
これらのモデルは大規模で計算量が多いため、モバイルおよびエッジシナリオへのデプロイメントが制限される。
我々は,蒸留,プルーニング,量子化といった一般的なモデル圧縮技術を活用して,視覚変換器をエッジに持ち込むための一歩を踏み出したい。
論文 参考訳(メタデータ) (2023-09-05T23:33:39Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - ViTCoD: Vision Transformer Acceleration via Dedicated Algorithm and
Accelerator Co-Design [42.46121663652989]
ビジョントランスフォーマー(ViT)は、様々なビジョンタスクにおいて最先端のパフォーマンスを実現している。
しかし、ViTsの自己保持モジュールは依然として大きなボトルネックである。
本稿では,ViTの高速化を目的とした,ViTCoDと呼ばれる専用アルゴリズムとアクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T04:07:23Z) - TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Vis-TOP: Visual Transformer Overlay Processor [9.80151619872144]
Transformerは自然言語処理(NLP)で優れた成果を上げており、コンピュータビジョン(CV)にも拡張し始めている。
様々な視覚変換器モデルのためのオーバーレイプロセッサであるVis-TOPを提案する。
Vis-TOPは、全ての視覚変換器モデルの特徴を要約し、3層および2層変換構造を実装している。
論文 参考訳(メタデータ) (2021-10-21T08:11:12Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。