論文の概要: Vis-TOP: Visual Transformer Overlay Processor
- arxiv url: http://arxiv.org/abs/2110.10957v1
- Date: Thu, 21 Oct 2021 08:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 18:29:43.637084
- Title: Vis-TOP: Visual Transformer Overlay Processor
- Title(参考訳): Vis-TOP:ビジュアルトランスフォーマーオーバーレイプロセッサ
- Authors: Wei Hu, Dian Xu, Zimeng Fan, Fang Liu, Yanxiang He
- Abstract要約: Transformerは自然言語処理(NLP)で優れた成果を上げており、コンピュータビジョン(CV)にも拡張し始めている。
様々な視覚変換器モデルのためのオーバーレイプロセッサであるVis-TOPを提案する。
Vis-TOPは、全ての視覚変換器モデルの特徴を要約し、3層および2層変換構造を実装している。
- 参考スコア(独自算出の注目度): 9.80151619872144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Transformer has achieved good results in Natural Language
Processing (NLP) and has also started to expand into Computer Vision (CV).
Excellent models such as the Vision Transformer and Swin Transformer have
emerged. At the same time, the platform for Transformer models was extended to
embedded devices to meet some resource-sensitive application scenarios.
However, due to the large number of parameters, the complex computational flow
and the many different structural variants of Transformer models, there are a
number of issues that need to be addressed in its hardware design. This is both
an opportunity and a challenge. We propose Vis-TOP (Visual Transformer Overlay
Processor), an overlay processor for various visual Transformer models. It
differs from coarse-grained overlay processors such as CPU, GPU, NPE, and from
fine-grained customized designs for a specific model. Vis-TOP summarizes the
characteristics of all visual Transformer models and implements a three-layer
and two-level transformation structure that allows the model to be switched or
changed freely without changing the hardware architecture. At the same time,
the corresponding instruction bundle and hardware architecture are designed in
three-layer and two-level transformation structure. After quantization of Swin
Transformer tiny model using 8-bit fixed points (fix_8), we implemented an
overlay processor on the ZCU102. Compared to GPU, the TOP throughput is 1.5x
higher. Compared to the existing Transformer accelerators, our throughput per
DSP is between 2.2x and 11.7x higher than others. In a word, the approach in
this paper meets the requirements of real-time AI in terms of both resource
consumption and inference speed. Vis-TOP provides a cost-effective and
power-effective solution based on reconfigurable devices for computer vision at
the edge.
- Abstract(参考訳): 近年、Transformerは自然言語処理(NLP)において優れた成果を上げ、コンピュータビジョン(CV)にも拡張し始めている。
Vision TransformerやSwin Transformerのような優れたモデルが登場した。
同時に、トランスフォーマーモデルのプラットフォームは、リソースに敏感なアプリケーションシナリオを満たすために、組み込みデバイスに拡張された。
しかし、多くのパラメータ、複雑な計算フロー、およびトランスフォーマーモデルの多くの異なる構造的変異のため、ハードウェア設計において対処すべき問題がいくつかある。
これは機会であり、挑戦でもある。
様々な視覚変換器モデルのためのオーバーレイプロセッサであるVis-TOP(Visual Transformer Overlay Processor)を提案する。
CPU、GPU、NEPのような粗粒のオーバーレイプロセッサと、特定のモデルのためのきめ細かいカスタマイズされた設計とは異なる。
Vis-TOPは、全てのビジュアルトランスフォーマーモデルの特徴を要約し、ハードウェアアーキテクチャを変更することなく3層および2層変換構造を実装している。
同時に、対応する命令バンドルとハードウェアアーキテクチャは、3層および2層変換構造で設計される。
8ビット固定点(fix_8)を用いたSwin Transformer小モデルの量子化後,ZCU102上にオーバーレイプロセッサを実装した。
GPUと比較して、TOPスループットは1.5倍高い。
既存のトランスフォーマー加速器と比較して、dspあたりのスループットは2.2倍から11.7倍高い。
一言で言えば,本論文のアプローチは,資源消費と推論速度の両方の観点から,リアルタイムAIの要件を満たすものである。
Vis-TOPは、エッジでのコンピュータビジョンのための再構成可能なデバイスに基づくコスト効率と電力効率のソリューションを提供する。
関連論文リスト
- Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - ViTA: A Vision Transformer Inference Accelerator for Edge Applications [4.3469216446051995]
ViT、Swin Transformer、Transformer-in-Transformerといったビジョントランスモデルは近年、コンピュータビジョンタスクにおいて大きな注目を集めている。
これらは計算量が多く、リソース制約のあるエッジデバイスにデプロイするのは難しい。
本稿では、リソース制約のあるエッジコンピューティングデバイスをターゲットにしたビジョントランスフォーマーモデル推論用ハードウェアアクセラレータViTAを提案する。
論文 参考訳(メタデータ) (2023-02-17T19:35:36Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Hierarchical Transformers Are More Efficient Language Models [19.061388006885686]
トランスフォーマーモデルは、多くのNLPおよびシーケンスモデリングタスクにおいて印象的な結果をもたらす。
注目すべきは、Transformerは長いシーケンスを処理でき、長いコヒーレントな出力を生成することができることだ。
我々は、長いシーケンスを効率的に処理するトランスフォーマーの鍵は、明示的な階層アーキテクチャを持つことにあると仮定する。
論文 参考訳(メタデータ) (2021-10-26T14:00:49Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。