論文の概要: TurboViT: Generating Fast Vision Transformers via Generative
Architecture Search
- arxiv url: http://arxiv.org/abs/2308.11421v1
- Date: Tue, 22 Aug 2023 13:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 17:57:02.324640
- Title: TurboViT: Generating Fast Vision Transformers via Generative
Architecture Search
- Title(参考訳): TurboViT: 生成アーキテクチャ検索による高速ビジョン変換器の生成
- Authors: Alexander Wong, Saad Abbasi, Saeejith Nair
- Abstract要約: 近年、視覚変換器は様々な視覚認知タスクに対処する上で、前例のないレベルの性能を示している。
近年,効率的な視覚変換器の設計に関する研究が盛んに行われている。
本研究では,生成型アーキテクチャサーチによる高速ビジョントランスフォーマーアーキテクチャの設計について検討する。
- 参考スコア(独自算出の注目度): 74.24393546346974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have shown unprecedented levels of performance in
tackling various visual perception tasks in recent years. However, the
architectural and computational complexity of such network architectures have
made them challenging to deploy in real-world applications with
high-throughput, low-memory requirements. As such, there has been significant
research recently on the design of efficient vision transformer architectures.
In this study, we explore the generation of fast vision transformer
architecture designs via generative architecture search (GAS) to achieve a
strong balance between accuracy and architectural and computational efficiency.
Through this generative architecture search process, we create TurboViT, a
highly efficient hierarchical vision transformer architecture design that is
generated around mask unit attention and Q-pooling design patterns. The
resulting TurboViT architecture design achieves significantly lower
architectural computational complexity (>2.47$\times$ smaller than FasterViT-0
while achieving same accuracy) and computational complexity (>3.4$\times$ fewer
FLOPs and 0.9% higher accuracy than MobileViT2-2.0) when compared to 10 other
state-of-the-art efficient vision transformer network architecture designs
within a similar range of accuracy on the ImageNet-1K dataset. Furthermore,
TurboViT demonstrated strong inference latency and throughput in both
low-latency and batch processing scenarios (>3.21$\times$ lower latency and
>3.18$\times$ higher throughput compared to FasterViT-0 for low-latency
scenario). These promising results demonstrate the efficacy of leveraging
generative architecture search for generating efficient transformer
architecture designs for high-throughput scenarios.
- Abstract(参考訳): 近年、視覚変換器は様々な視覚認知タスクに取り組む際に、前例のない性能を示した。
しかし、そのようなネットワークアーキテクチャのアーキテクチャと計算の複雑さは、高スループットで低メモリ要求の実際のアプリケーションにデプロイすることを困難にしている。
このように、近年、効率的な視覚トランスフォーマーアーキテクチャの設計に関する研究が盛んである。
本研究では,GAS(Generative Architecture Search)を用いた高速ビジョントランスフォーマーアーキテクチャの設計について検討し,精度とアーキテクチャ,計算効率のバランスを強くする。
この生成的アーキテクチャ探索プロセスを通じて,マスクユニットの注意とQプールの設計パターンに基づいて生成される高効率な階層型視覚トランスフォーマーアーキテクチャであるTurboViTを作成する。
結果のTurboViTアーキテクチャ設計は、ImageNet-1Kデータセットで同様の精度で、他の10の最先端の効率的なビジョントランスフォーマーネットワークアーキテクチャと比較すると、アーキテクチャの複雑さ(=2.47$\times$同じ精度でFasterViT-0より小さい)と計算の複雑さ(→3.4$\times$より小さいFLOPと0.9%高い精度)を著しく低下させる。
さらに、TurboViTは低レイテンシとバッチ処理の両方のシナリオで強い推論レイテンシとスループットを示した(低レイテンシではFasterViT-0に比べて3.21$\times$低レイテンシと3.18$\times$高スループット)。
これらの有望な結果は、高スループットシナリオのための効率的なトランスフォーマーアーキテクチャ設計を生成するために生成的アーキテクチャ探索を利用する効果を示している。
関連論文リスト
- Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - Efficient Neural Net Approaches in Metal Casting Defect Detection [0.0]
本研究は,精度と推定時間の観点から効率の良い軽量アーキテクチャを提案する。
以上の結果から,深度的に分離可能な畳み込みを持つ590Kパラメータのカスタムモデルが事前学習アーキテクチャよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-08-08T13:54:36Z) - Neural Architecture Search on Efficient Transformers and Beyond [23.118556295894376]
ニューラルアーキテクチャサーチ(NAS)技術を用いて,効率的なトランスフォーマーのための最適なアーキテクチャを見つけるための新しいフレームワークを提案する。
我々は,効率的なトランスフォーマーの最適アーキテクチャが標準トランスフォーマーと比較して計算量が少ないことを観察した。
検索したアーキテクチャは標準のTransformerに匹敵する精度を維持しており、計算効率が著しく向上している。
論文 参考訳(メタデータ) (2022-07-28T08:41:41Z) - A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。
UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T20:11:56Z) - Vision Transformer Architecture Search [64.73920718915282]
現在の視覚変換器(ViT)は、自然言語処理(NLP)タスクから単純に継承される。
ハードウェア予算に類似した最適アーキテクチャを探索するために,ViTASと呼ばれるアーキテクチャ探索手法を提案する。
検索したアーキテクチャは、ImageNetで74.7%の精度で、現在のベースラインのViTアーキテクチャよりも2.5%高い。
論文 参考訳(メタデータ) (2021-06-25T15:39:08Z) - Twins: Revisiting Spatial Attention Design in Vision Transformers [81.02454258677714]
本稿では,注意深い空間的注意機構が最先端のスキームに対して好適に機能することを実証する。
Twins-PCPVTとTwins-SVTの2つのビジョントランスアーキテクチャを提案します。
提案するアーキテクチャは,現代のディープラーニングフレームワークに高度に最適化された行列乗算のみを含む,高効率かつ実装が容易である。
論文 参考訳(メタデータ) (2021-04-28T15:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。