論文の概要: SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design
- arxiv url: http://arxiv.org/abs/2401.16456v2
- Date: Wed, 27 Mar 2024 04:14:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 21:02:36.369421
- Title: SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design
- Title(参考訳): SHViT:メモリ効率の良いマクロ設計によるシングルヘッドビジョントランス
- Authors: Seokju Yun, Youngmin Ro,
- Abstract要約: 本稿では,メモリ効率のよい設計レベルでの計算冗長性に対処することを目的とする。
より大きなストライドのパッチフィクスを使用するとメモリアクセスコストが削減されるだけでなく、競争性能も向上することがわかった。
SHViTは、最先端の速度精度トレードオフを得る単一ヘッドビジョン変換器である。
- 参考スコア(独自算出の注目度): 5.962184741057505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, efficient Vision Transformers have shown great performance with low latency on resource-constrained devices. Conventionally, they use 4x4 patch embeddings and a 4-stage structure at the macro level, while utilizing sophisticated attention with multi-head configuration at the micro level. This paper aims to address computational redundancy at all design levels in a memory-efficient manner. We discover that using larger-stride patchify stem not only reduces memory access costs but also achieves competitive performance by leveraging token representations with reduced spatial redundancy from the early stages. Furthermore, our preliminary analyses suggest that attention layers in the early stages can be substituted with convolutions, and several attention heads in the latter stages are computationally redundant. To handle this, we introduce a single-head attention module that inherently prevents head redundancy and simultaneously boosts accuracy by parallelly combining global and local information. Building upon our solutions, we introduce SHViT, a Single-Head Vision Transformer that obtains the state-of-the-art speed-accuracy tradeoff. For example, on ImageNet-1k, our SHViT-S4 is 3.3x, 8.1x, and 2.4x faster than MobileViTv2 x1.0 on GPU, CPU, and iPhone12 mobile device, respectively, while being 1.3% more accurate. For object detection and instance segmentation on MS COCO using Mask-RCNN head, our model achieves performance comparable to FastViT-SA12 while exhibiting 3.8x and 2.0x lower backbone latency on GPU and mobile device, respectively.
- Abstract(参考訳): 近年、リソース制約のあるデバイスでは、低レイテンシで効率的なビジョントランスフォーマーの性能が向上している。
従来、マクロレベルでは4x4パッチ埋め込みと4ステージ構造を使用しており、マイクロレベルではマルチヘッド構成で高度な注意を払っている。
本稿では,メモリ効率のよい設計レベルでの計算冗長性に対処することを目的とする。
より大型のストライドパッチステムを用いることでメモリアクセスコストを低減できるだけでなく,初期から空間冗長性を低減したトークン表現を活用することで,競争性能も向上することがわかった。
さらに, 予備分析の結果, 早期の注意層を畳み込みで置き換えることができ, 後期の注意層は計算的に冗長であることがわかった。
そこで本研究では,頭部の冗長性を本質的に防止し,グローバル情報とローカル情報を並列に組み合わせることで,精度を向上するシングルヘッドアテンションモジュールを提案する。
我々のソリューションを基にしたSHViTは、最先端のスピード精度トレードオフを得るシングルヘッドビジョン変換器である。
たとえばImageNet-1kでは、私たちのSHViT-S4はGPU、CPU、iPhone12のモバイルViTv2 x1.0よりも3.3倍、8.1倍、2.4倍速く、精度は1.3%向上しています。
Mask-RCNNヘッドを用いたMS COCOのオブジェクト検出とインスタンスセグメンテーションでは,GPUとモバイルデバイスでそれぞれ3.8倍,2.0倍のバックボーンレイテンシを示しながら,FastViT-SA12に匹敵する性能を実現している。
関連論文リスト
- Optimizing the Deployment of Tiny Transformers on Low-Power MCUs [12.905978154498499]
この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。
我々のフレームワークは、データの再利用を最大化し、重要な注意ブロックにデータマーシャリング操作を避けるために、カーネルの最適化ライブラリを提供する。
MHSA深度優先のタイリング方式はメモリピークを最大6.19倍に減らし、融合重み付けはランタイムを1.53倍減らし、パラメータ数を25%減らすことを示した。
論文 参考訳(メタデータ) (2024-04-03T14:14:08Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - EfficientViT: Memory Efficient Vision Transformer with Cascaded Group
Attention [44.148667664413004]
我々はEfficientViTという高速視覚変換器群を提案する。
既存のトランスモデルの速度は、一般にメモリ非効率な演算によって制限される。
この問題に対処するため,異なるスプリットのアテンションヘッドを刺激するグループアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:59:41Z) - FastViT: A Fast Hybrid Vision Transformer using Structural
Reparameterization [14.707312504365376]
我々は、最先端のレイテンシ-精度トレードオフを得るハイブリッドビジョントランスフォーマーアーキテクチャであるFastViTを紹介する。
我々は,当社のモデルがCMTの3.5倍,EfficientNetの4.9倍,モバイルデバイスのConvNeXtの1.9倍で,ImageNetデータセットと同じ精度であることを示す。
論文 参考訳(メタデータ) (2023-03-24T17:58:32Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Improving the Efficiency of Transformers for Resource-Constrained
Devices [1.3019517863608956]
いくつかのデバイス上での最先端の視覚変換器の性能解析を行う。
モデルパラメータを表すために64個のクラスタのみを使用することで、メインメモリからのデータ転送を4倍以上削減できることを示す。
論文 参考訳(メタデータ) (2021-06-30T12:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。