論文の概要: ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond
- arxiv url: http://arxiv.org/abs/2202.10108v1
- Date: Mon, 21 Feb 2022 10:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 09:32:47.798344
- Title: ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond
- Title(参考訳): ViTAEv2:画像認識のための誘導バイアス探索による視覚変換器
- Authors: Qiming Zhang, Yufei Xu, Jing Zhang, Dacheng Tao
- Abstract要約: 我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
- 参考スコア(独自算出の注目度): 76.35955924137986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have shown great potential in various computer vision
tasks owing to their strong capability to model long-range dependency using the
self-attention mechanism. Nevertheless, they treat an image as a 1D sequence of
visual tokens, lacking an intrinsic inductive bias (IB) in modeling local
visual structures and dealing with scale variance, which is instead learned
implicitly from large-scale training data with longer training schedules. In
this paper, we propose a Vision Transformer Advanced by Exploring intrinsic IB
from convolutions, i.e., ViTAE. Technically, ViTAE has several spatial pyramid
reduction modules to downsample and embed the input image into tokens with rich
multi-scale context using multiple convolutions with different dilation rates.
In this way, it acquires an intrinsic scale invariance IB and can learn robust
feature representation for objects at various scales. Moreover, in each
transformer layer, ViTAE has a convolution block parallel to the multi-head
self-attention module, whose features are fused and fed into the feed-forward
network. Consequently, it has the intrinsic locality IB and is able to learn
local features and global dependencies collaboratively. The proposed two kinds
of cells are stacked in both isotropic and multi-stage manners to formulate two
families of ViTAE models, i.e., the vanilla ViTAE and ViTAEv2. Experiments on
the ImageNet dataset as well as downstream tasks on the MS COCO, ADE20K, and
AP10K datasets validate the superiority of our models over the baseline
transformer models and concurrent works. Besides, we scale up our ViTAE model
to 644M parameters and obtain the state-of-the-art classification performance,
i.e., 88.5% Top-1 classification accuracy on ImageNet validation set and the
best 91.2% Top-1 accuracy on ImageNet real validation set, without using extra
private data.
- Abstract(参考訳): 視覚トランスフォーマーは、自己着脱機構を用いて長距離依存をモデル化する能力が強かったため、様々なコンピュータビジョンタスクにおいて大きな可能性を秘めている。
それでも彼らは、画像を視覚トークンの1次元シーケンスとして扱い、局所的な視覚構造をモデル化し、スケールの分散を扱うために固有の誘導バイアス(IB)を欠いている。
本稿では,内在性IBを畳み込みから探索する視覚変換器,すなわちViTAEを提案する。
技術的には、ViTAEは複数の空間ピラミッド還元モジュールを持ち、異なるダイレーションレートの複数の畳み込みを用いて入力画像をリッチなマルチスケールコンテキストのトークンに埋め込む。
このようにして、本質的なスケール不変IBを取得し、様々なスケールでオブジェクトのロバストな特徴表現を学習することができる。
さらに、各トランス層において、ViTAEはマルチヘッド自己保持モジュールに平行な畳み込みブロックを持ち、その特徴を融合してフィードフォワードネットワークに供給する。
そのため、固有の局所性ibを持ち、ローカル機能とグローバルな依存関係を協調的に学習することができる。
提案する2種類の細胞は等方性と多段階性の両方で積み重ねられ、ヴィタエモデルの2つのファミリー、すなわちバニラヴィタエとヴィタエフ2を定式化している。
ImageNetデータセットと、MS COCO、ADE20K、AP10Kデータセットの下流タスクの実験は、ベースライントランスフォーマーモデルとコンカレントワークよりもモデルの優位性を検証する。
さらに、VTAEモデルを644Mパラメータにスケールアップし、最先端の分類性能、すなわち、ImageNet検証セットで88.5%のTop-1分類精度、ImageNet実検証セットで91.2%のTop-1精度を得る。
関連論文リスト
- TiC: Exploring Vision Transformer in Convolution [37.50285921899263]
マルチヘッド・セルフアテンション・コンボリューション(MSA-Conv)を提案する。
MSA-Convは、標準、拡張された、深みのあるものを含む一般的な畳み込みの中に自己認識を組み込んでいる。
本稿では,MSA-Convを用いた画像分類の概念実証として,TiC(Vision Transformer in Convolution)を提案する。
論文 参考訳(メタデータ) (2023-10-06T10:16:26Z) - How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。