論文の概要: Unleashing Vanilla Vision Transformer with Masked Image Modeling for
Object Detection
- arxiv url: http://arxiv.org/abs/2204.02964v1
- Date: Wed, 6 Apr 2022 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 15:03:40.439180
- Title: Unleashing Vanilla Vision Transformer with Masked Image Modeling for
Object Detection
- Title(参考訳): マスキング画像モデルを用いた物体検出用バニラビジョントランス
- Authors: Yuxin Fang, Shusheng Yang, Shijie Wang, Yixiao Ge, Ying Shan, Xinggang
Wang
- Abstract要約: MIMで事前訓練されたバニラViTは、難しいオブジェクトレベルの認識シナリオで驚くほどうまく機能する。
ランダムなコンパクトなコンボリューションステムは、事前訓練された大きなカーネルのパッチフィケーションステムに取って代わる。
提案された検出器はMIMDetと呼ばれ、MIMで事前訓練されたバニラVITが2.3ボックスAPと2.5マスクAPで階層スウィントランスより優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 39.37861288287621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach to efficiently and effectively adapt a masked image
modeling (MIM) pre-trained vanilla Vision Transformer (ViT) for object
detection, which is based on our two novel observations: (i) A MIM pre-trained
vanilla ViT can work surprisingly well in the challenging object-level
recognition scenario even with random sampled partial observations, e.g., only
25% ~ 50% of the input sequence. (ii) In order to construct multi-scale
representations for object detection, a random initialized compact
convolutional stem supplants the pre-trained large kernel patchify stem, and
its intermediate features can naturally serve as the higher resolution inputs
of a feature pyramid without upsampling. While the pre-trained ViT is only
regarded as the third-stage of our detector's backbone instead of the whole
feature extractor, resulting in a ConvNet-ViT hybrid architecture. The proposed
detector, named MIMDet, enables a MIM pre-trained vanilla ViT to outperform
hierarchical Swin Transformer by 2.3 box AP and 2.5 mask AP on COCO, and
achieve even better results compared with other adapted vanilla ViT using a
more modest fine-tuning recipe while converging 2.8x faster. Code and
pre-trained models are available at \url{https://github.com/hustvl/MIMDet}.
- Abstract(参考訳): 本稿では,物体検出のためのマスク付き画像モデリング(MIM)プリトレーニングバニラビジョントランス (ViT) を効果的かつ効果的に適用するアプローチを提案する。
(i)MIM事前訓練されたバニラViTは、ランダムなサンプル部分観察(例えば入力シーケンスの25%~50%)であっても、難しいオブジェクトレベルの認識シナリオで驚くほどうまく機能する。
(II) オブジェクト検出のためのマルチスケール表現を構築するために、ランダム初期化コンパクトな畳み込みステムは、事前訓練された大きなカーネルパッチ化ステムを置換し、その中間機能は、アップサンプリングなしで特徴ピラミッドの高分解能入力として自然に機能する。
事前訓練されたViTは、特徴抽出器全体ではなく、検出器のバックボーンの第3段階と見なされているため、ConvNet-ViTハイブリッドアーキテクチャとなる。
提案した検出器はMIMDetと呼ばれ、MIM事前訓練されたバニラViTは、COCO上の2.3ボックスAPと2.5マスクAPで階層的なスウィントランスフォーマーを上回り、より控えめな微調整レシピを使用して2.8倍の速度で収束する。
コードと事前訓練されたモデルは、 \url{https://github.com/hustvl/MIMDet} で入手できる。
関連論文リスト
- Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。