論文の概要: Twins: Revisiting Spatial Attention Design in Vision Transformers
- arxiv url: http://arxiv.org/abs/2104.13840v1
- Date: Wed, 28 Apr 2021 15:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 13:00:47.542010
- Title: Twins: Revisiting Spatial Attention Design in Vision Transformers
- Title(参考訳): ツインズ:視覚変換器における空間的注意設計の再考
- Authors: Xiangxiang Chu and Zhi Tian and Yuqing Wang and Bo Zhang and Haibing
Ren and Xiaolin Wei and Huaxia Xia and Chunhua Shen
- Abstract要約: 本稿では,注意深い空間的注意機構が最先端のスキームに対して好適に機能することを実証する。
Twins-PCPVTとTwins-SVTの2つのビジョントランスアーキテクチャを提案します。
提案するアーキテクチャは,現代のディープラーニングフレームワークに高度に最適化された行列乗算のみを含む,高効率かつ実装が容易である。
- 参考スコア(独自算出の注目度): 81.02454258677714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Very recently, a variety of vision transformer architectures for dense
prediction tasks have been proposed and they show that the design of spatial
attention is critical to their success in these tasks. In this work, we revisit
the design of the spatial attention and demonstrate that a carefully-devised
yet simple spatial attention mechanism performs favourably against the
state-of-the-art schemes. As a result, we propose two vision transformer
architectures, namely, Twins-PCPVT and Twins-SVT. Our proposed architectures
are highly-efficient and easy to implement, only involving matrix
multiplications that are highly optimized in modern deep learning frameworks.
More importantly, the proposed architectures achieve excellent performance on a
wide range of visual tasks including imagelevel classification as well as dense
detection and segmentation. The simplicity and strong performance suggest that
our proposed architectures may serve as stronger backbones for many vision
tasks. Our code will be released soon at
https://github.com/Meituan-AutoML/Twins .
- Abstract(参考訳): 近年、密集予測タスクのための様々な視覚トランスフォーマーアーキテクチャが提案され、これらのタスクの成功に空間的注意設計が不可欠であることが示されている。
本研究は,空間的注意の設計を再考し,注意深く考案され,かつ単純な空間的注意機構が最先端のスキームに対して好適に作用することを示す。
その結果,Twins-PCPVTとTwins-SVTの2つのビジョントランスフォーマーアーキテクチャを提案する。
提案するアーキテクチャは,現代のディープラーニングフレームワークに高度に最適化された行列乗算のみを含む,高効率かつ実装が容易である。
さらに,提案アーキテクチャは画像レベルの分類や高密度検出,セグメンテーションなど,幅広い視覚的タスクにおいて優れた性能を発揮する。
シンプルで強力なパフォーマンスは、提案するアーキテクチャが多くのビジョンタスクにおいてより強力なバックボーンとなることを示唆しています。
私たちのコードはもうすぐhttps://github.com/Meituan-AutoML/Twinsでリリースされます。
関連論文リスト
- You Only Need Less Attention at Each Stage in Vision Transformers [19.660385306028047]
ViT(Vision Transformer)は、自己認識モジュールを通じて画像のグローバルな情報をキャプチャする。
本稿では,各段階の注意操作のみを演算するLose-Attention Vision Transformer (LaViT)を提案する。
我々のアーキテクチャは、分類、検出、セグメンテーションを含む様々な視覚タスクにおいて、例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-01T12:49:16Z) - Activator: GLU Activation Function as the Core Component of a Vision Transformer [1.3812010983144802]
トランスフォーマーアーキテクチャは現在、ディープラーニングによって対処されるさまざまなタスクにおいて、多くの成功の背後にある主要なドライバである。
本稿では,多層パーセプトロンアーキテクチャに線形ゲートユニット(GLU)アクティベーションを組み込んだ変圧器アーキテクチャに通常採用されるアテンション機構の置換について検討する。
論文 参考訳(メタデータ) (2024-05-24T21:46:52Z) - TurboViT: Generating Fast Vision Transformers via Generative
Architecture Search [74.24393546346974]
近年、視覚変換器は様々な視覚認知タスクに対処する上で、前例のないレベルの性能を示している。
近年,効率的な視覚変換器の設計に関する研究が盛んに行われている。
本研究では,生成型アーキテクチャサーチによる高速ビジョントランスフォーマーアーキテクチャの設計について検討する。
論文 参考訳(メタデータ) (2023-08-22T13:08:29Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。
UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T20:11:56Z) - Vision Transformer Architecture Search [64.73920718915282]
現在の視覚変換器(ViT)は、自然言語処理(NLP)タスクから単純に継承される。
ハードウェア予算に類似した最適アーキテクチャを探索するために,ViTASと呼ばれるアーキテクチャ探索手法を提案する。
検索したアーキテクチャは、ImageNetで74.7%の精度で、現在のベースラインのViTアーキテクチャよりも2.5%高い。
論文 参考訳(メタデータ) (2021-06-25T15:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。