論文の概要: Row-wise Accelerator for Vision Transformer
- arxiv url: http://arxiv.org/abs/2205.03998v1
- Date: Mon, 9 May 2022 01:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-11 00:49:49.906811
- Title: Row-wise Accelerator for Vision Transformer
- Title(参考訳): 視覚変換器用ローワイズ加速器
- Authors: Hong-Yi Wang, and Tian-Sheuan Chang
- Abstract要約: 本稿では,行ワイドスケジューリングによる視覚変換器のハードウェアアクセラレータを提案する。
TSMC 40nm CMOS技術の実装は、600MHzのクロック周波数で403.2 GOPSスループットを実現するのに262Kのゲート数と149KBのバッファしか必要としない。
- 参考スコア(独自算出の注目度): 4.802171139840781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following the success of the natural language processing, the transformer for
vision applications has attracted significant attention in recent years due to
its excellent performance. However, existing deep learning hardware
accelerators for vision cannot execute this structure efficiently due to
significant model architecture differences. As a result, this paper proposes
the hardware accelerator for vision transformers with row-wise scheduling,
which decomposes major operations in vision transformers as a single dot
product primitive for a unified and efficient execution. Furthermore, by
sharing weights in columns, we can reuse the data and reduce the usage of
memory. The implementation with TSMC 40nm CMOS technology only requires 262K
gate count and 149KB SRAM buffer for 403.2 GOPS throughput at 600MHz clock
frequency.
- Abstract(参考訳): 自然言語処理の成功を受けて、視覚アプリケーションのためのトランスフォーマーは、その優れた性能のために近年大きな注目を集めている。
しかし、既存の視覚用ディープラーニングハードウェアアクセラレーターは、モデルアーキテクチャの違いが大きいため、この構造を効率的に実行することはできない。
そこで本研究では,視覚変換器の主要動作を単一ドット製品プリミティブとして分割し,一元的かつ効率的な実行を実現する,行ワイドスケジューリングによる視覚変換器のハードウェアアクセラレータを提案する。
さらに、列に重みを共有することで、データを再利用し、メモリ使用量を削減できます。
TSMC 40nm CMOS技術の実装には、600MHzのクロック周波数で403.2 GOPSのスループットで262Kのゲート数と149KBのSRAMバッファしか必要としない。
関連論文リスト
- CHOSEN: Compilation to Hardware Optimization Stack for Efficient Vision Transformer Inference [4.523939613157408]
ビジョントランスフォーマー(ViT)は、コンピュータビジョンへの機械学習アプローチにおける画期的なシフトである。
本稿では,これらの課題に対処するソフトウェアハードウェアの共同設計フレームワークであるCHOSENを紹介し,FPGA上にViTをデプロイするための自動フレームワークを提供する。
ChoSENはDeiT-SとDeiT-Bモデルのスループットを1.5倍と1.42倍改善した。
論文 参考訳(メタデータ) (2024-07-17T16:56:06Z) - An FPGA-Based Reconfigurable Accelerator for Convolution-Transformer Hybrid EfficientViT [5.141764719319689]
本稿では,VTのハードウェア効率フロンティアを向上するために,FPGAベースのEfficientViTアクセラレータを提案する。
具体的には、軽量な畳み込みや注意を含む様々な操作タイプを効率的にサポートする再構成可能なアーキテクチャを設計する。
実験の結果,我々の加速器はスループット780.2 GOPS,エネルギー効率105.1 GOPS/Wを200MHzで達成した。
論文 参考訳(メタデータ) (2024-03-29T15:20:33Z) - MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2023-10-25T18:00:26Z) - ViTA: A Vision Transformer Inference Accelerator for Edge Applications [4.3469216446051995]
ViT、Swin Transformer、Transformer-in-Transformerといったビジョントランスモデルは近年、コンピュータビジョンタスクにおいて大きな注目を集めている。
これらは計算量が多く、リソース制約のあるエッジデバイスにデプロイするのは難しい。
本稿では、リソース制約のあるエッジコンピューティングデバイスをターゲットにしたビジョントランスフォーマーモデル推論用ハードウェアアクセラレータViTAを提案する。
論文 参考訳(メタデータ) (2023-02-17T19:35:36Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文 参考訳(メタデータ) (2023-01-10T07:55:29Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Improving the Efficiency of Transformers for Resource-Constrained
Devices [1.3019517863608956]
いくつかのデバイス上での最先端の視覚変換器の性能解析を行う。
モデルパラメータを表すために64個のクラスタのみを使用することで、メインメモリからのデータ転送を4倍以上削減できることを示す。
論文 参考訳(メタデータ) (2021-06-30T12:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。