論文の概要: ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias
- arxiv url: http://arxiv.org/abs/2106.03348v1
- Date: Mon, 7 Jun 2021 05:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:03:13.628234
- Title: ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias
- Title(参考訳): ViTAE: 内因性誘導バイアスを探索するビジョントランス
- Authors: Yufei Xu, Qiming Zhang, Jing Zhang, Dacheng Tao
- Abstract要約: コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
- 参考スコア(独自算出の注目度): 76.16156833138038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have shown great potential in various computer vision tasks
owing to their strong capability in modeling long-range dependency using the
self-attention mechanism. Nevertheless, vision transformers treat an image as
1D sequence of visual tokens, lacking an intrinsic inductive bias (IB) in
modeling local visual structures and dealing with scale variance.
Alternatively, they require large-scale training data and longer training
schedules to learn the IB implicitly. In this paper, we propose a novel Vision
Transformer Advanced by Exploring intrinsic IB from convolutions, \ie, ViTAE.
Technically, ViTAE has several spatial pyramid reduction modules to downsample
and embed the input image into tokens with rich multi-scale context by using
multiple convolutions with different dilation rates. In this way, it acquires
an intrinsic scale invariance IB and is able to learn robust feature
representation for objects at various scales. Moreover, in each transformer
layer, ViTAE has a convolution block in parallel to the multi-head
self-attention module, whose features are fused and fed into the feed-forward
network. Consequently, it has the intrinsic locality IB and is able to learn
local features and global dependencies collaboratively. Experiments on ImageNet
as well as downstream tasks prove the superiority of ViTAE over the baseline
transformer and concurrent works. Source code and pretrained models will be
available at GitHub.
- Abstract(参考訳): トランスフォーマーは、自己認識機構を用いて長距離依存をモデル化する能力の強いため、様々なコンピュータビジョンタスクにおいて大きなポテンシャルを示してきた。
それにもかかわらず、視覚トランスフォーマーは画像を視覚トークンの1次元列として扱い、局所的な視覚構造のモデリングやスケール分散の処理において内在的な帰納的バイアス(ib)を欠いている。
あるいは、IBを暗黙的に学習するために、大規模なトレーニングデータと長いトレーニングスケジュールが必要です。
本稿では,畳み込み法(convolutions, \ie, vitae)から内在するibを探索し,新しい視覚トランスフォーマを提案する。
技術的には、ViTAEは複数の空間ピラミッド還元モジュールを持ち、異なるダイレーションレートの複数の畳み込みを用いて入力画像をリッチなマルチスケールコンテキストのトークンに埋め込む。
このようにして、本質的なスケール不変IBを取得し、様々なスケールでオブジェクトのロバストな特徴表現を学習することができる。
さらに、各トランス層において、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴を融合してフィードフォワードネットワークに供給する。
そのため、固有の局所性ibを持ち、ローカル機能とグローバルな依存関係を協調的に学習することができる。
ImageNetと下流タスクの実験は、ベースライントランスフォーマーとコンカレントワークよりもViTAEの方が優れていることを証明している。
ソースコードと事前トレーニングされたモデルはgithubで入手できる。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。
CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。
HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文 参考訳(メタデータ) (2022-03-31T11:18:41Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-21T06:34:50Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。