論文の概要: Unleashing Vanilla Vision Transformer with Masked Image Modeling for
Object Detection
- arxiv url: http://arxiv.org/abs/2204.02964v1
- Date: Wed, 6 Apr 2022 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 15:03:40.439180
- Title: Unleashing Vanilla Vision Transformer with Masked Image Modeling for
Object Detection
- Title(参考訳): マスキング画像モデルを用いた物体検出用バニラビジョントランス
- Authors: Yuxin Fang, Shusheng Yang, Shijie Wang, Yixiao Ge, Ying Shan, Xinggang
Wang
- Abstract要約: MIMで事前訓練されたバニラViTは、難しいオブジェクトレベルの認識シナリオで驚くほどうまく機能する。
ランダムなコンパクトなコンボリューションステムは、事前訓練された大きなカーネルのパッチフィケーションステムに取って代わる。
提案された検出器はMIMDetと呼ばれ、MIMで事前訓練されたバニラVITが2.3ボックスAPと2.5マスクAPで階層スウィントランスより優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 39.37861288287621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach to efficiently and effectively adapt a masked image
modeling (MIM) pre-trained vanilla Vision Transformer (ViT) for object
detection, which is based on our two novel observations: (i) A MIM pre-trained
vanilla ViT can work surprisingly well in the challenging object-level
recognition scenario even with random sampled partial observations, e.g., only
25% ~ 50% of the input sequence. (ii) In order to construct multi-scale
representations for object detection, a random initialized compact
convolutional stem supplants the pre-trained large kernel patchify stem, and
its intermediate features can naturally serve as the higher resolution inputs
of a feature pyramid without upsampling. While the pre-trained ViT is only
regarded as the third-stage of our detector's backbone instead of the whole
feature extractor, resulting in a ConvNet-ViT hybrid architecture. The proposed
detector, named MIMDet, enables a MIM pre-trained vanilla ViT to outperform
hierarchical Swin Transformer by 2.3 box AP and 2.5 mask AP on COCO, and
achieve even better results compared with other adapted vanilla ViT using a
more modest fine-tuning recipe while converging 2.8x faster. Code and
pre-trained models are available at \url{https://github.com/hustvl/MIMDet}.
- Abstract(参考訳): 本稿では,物体検出のためのマスク付き画像モデリング(MIM)プリトレーニングバニラビジョントランス (ViT) を効果的かつ効果的に適用するアプローチを提案する。
(i)MIM事前訓練されたバニラViTは、ランダムなサンプル部分観察(例えば入力シーケンスの25%~50%)であっても、難しいオブジェクトレベルの認識シナリオで驚くほどうまく機能する。
(II) オブジェクト検出のためのマルチスケール表現を構築するために、ランダム初期化コンパクトな畳み込みステムは、事前訓練された大きなカーネルパッチ化ステムを置換し、その中間機能は、アップサンプリングなしで特徴ピラミッドの高分解能入力として自然に機能する。
事前訓練されたViTは、特徴抽出器全体ではなく、検出器のバックボーンの第3段階と見なされているため、ConvNet-ViTハイブリッドアーキテクチャとなる。
提案した検出器はMIMDetと呼ばれ、MIM事前訓練されたバニラViTは、COCO上の2.3ボックスAPと2.5マスクAPで階層的なスウィントランスフォーマーを上回り、より控えめな微調整レシピを使用して2.8倍の速度で収束する。
コードと事前訓練されたモデルは、 \url{https://github.com/hustvl/MIMDet} で入手できる。
関連論文リスト
- MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。