論文の概要: Vision Transformer Architecture Search
- arxiv url: http://arxiv.org/abs/2106.13700v1
- Date: Fri, 25 Jun 2021 15:39:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 13:15:35.165079
- Title: Vision Transformer Architecture Search
- Title(参考訳): 視覚変換器アーキテクチャ探索
- Authors: Xiu Su, Shan You, Jiyang Xie, Mingkai Zheng, Fei Wang, Chen Qian,
Changshui Zhang, Xiaogang Wang, Chang Xu
- Abstract要約: 現在の視覚変換器(ViT)は、自然言語処理(NLP)タスクから単純に継承される。
ハードウェア予算に類似した最適アーキテクチャを探索するために,ViTASと呼ばれるアーキテクチャ探索手法を提案する。
検索したアーキテクチャは、ImageNetで74.7%の精度で、現在のベースラインのViTアーキテクチャよりも2.5%高い。
- 参考スコア(独自算出の注目度): 64.73920718915282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, transformers have shown great superiority in solving computer
vision tasks by modeling images as a sequence of manually-split patches with
self-attention mechanism. However, current architectures of vision transformers
(ViTs) are simply inherited from natural language processing (NLP) tasks and
have not been sufficiently investigated and optimized. In this paper, we make a
further step by examining the intrinsic structure of transformers for vision
tasks and propose an architecture search method, dubbed ViTAS, to search for
the optimal architecture with similar hardware budgets. Concretely, we design a
new effective yet efficient weight sharing paradigm for ViTs, such that
architectures with different token embedding, sequence size, number of heads,
width, and depth can be derived from a single super-transformer. Moreover, to
cater for the variance of distinct architectures, we introduce \textit{private}
class token and self-attention maps in the super-transformer. In addition, to
adapt the searching for different budgets, we propose to search the sampling
probability of identity operation. Experimental results show that our ViTAS
attains excellent results compared to existing pure transformer architectures.
For example, with $1.3$G FLOPs budget, our searched architecture achieves
$74.7\%$ top-$1$ accuracy on ImageNet and is $2.5\%$ superior than the current
baseline ViT architecture. Code is available at
\url{https://github.com/xiusu/ViTAS}.
- Abstract(参考訳): 近年,手動分割パッチのシーケンスを自己認識機構でモデル化することで,コンピュータビジョンタスクの解法において,トランスフォーマーは優れた優位性を示している。
しかし、現在の視覚トランスフォーマー(vits)のアーキテクチャは自然言語処理(nlp)タスクから継承され、十分に研究され最適化されていない。
本稿では,視覚タスクにおけるトランスフォーマの固有構造を検証し,同様のハードウェア予算で最適なアーキテクチャを探索するためのアーキテクチャ探索手法vitasを提案する。
具体的には, 異なるトークン埋め込み, シーケンスサイズ, ヘッド数, 幅, 深さの異なるアーキテクチャを単一超変圧器から導出できるような, 有効かつ効率的なViTのための新しい重量共有パラダイムを設計する。
さらに、異なるアーキテクチャのばらつきに対応するため、スーパートランスフォーマで \textit{private} クラストークンとセルフアテンションマップを導入する。
また,異なる予算の探索に適応するために,同一性操作のサンプリング確率を探索することを提案する。
実験の結果,既存のトランスフォーマアーキテクチャに比べ,vitasは優れた結果を得た。
例えば、13$gのフロップス予算で、検索されたアーキテクチャは、imagenetで最大$$1の精度を74.7.%達成し、現在のベースラインvitアーキテクチャよりも$2.5\%優れている。
コードは \url{https://github.com/xiusu/ViTAS} で入手できる。
関連論文リスト
- PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - TurboViT: Generating Fast Vision Transformers via Generative
Architecture Search [74.24393546346974]
近年、視覚変換器は様々な視覚認知タスクに対処する上で、前例のないレベルの性能を示している。
近年,効率的な視覚変換器の設計に関する研究が盛んに行われている。
本研究では,生成型アーキテクチャサーチによる高速ビジョントランスフォーマーアーキテクチャの設計について検討する。
論文 参考訳(メタデータ) (2023-08-22T13:08:29Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-21T06:34:50Z) - A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。
UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T20:11:56Z) - Searching the Search Space of Vision Transformer [98.96601221383209]
視覚変換器は、認識や検出などの視覚的なタスクにおいて、大きな視覚的表現力を示してきた。
我々は,このプロセスを自動化するために,アーキテクチャだけでなく検索空間も探索することで,ニューラルアーキテクチャサーチを提案する。
空間探索プロセスに応じて広範に解析を行う汎用視覚変換器の設計ガイドラインを提供する。
論文 参考訳(メタデータ) (2021-11-29T17:26:07Z) - A Survey of Visual Transformers [30.082304742571598]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。
我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文 参考訳(メタデータ) (2021-11-11T07:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。