論文の概要: Exploring Plain Vision Transformer Backbones for Object Detection
- arxiv url: http://arxiv.org/abs/2203.16527v1
- Date: Wed, 30 Mar 2022 17:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:42:31.804225
- Title: Exploring Plain Vision Transformer Backbones for Object Detection
- Title(参考訳): 物体検出のためのプレーンビジョントランスフォーマーバックボーンの検討
- Authors: Yanghao Li, Hanzi Mao, Ross Girshick, Kaiming He
- Abstract要約: 我々は、物体検出のためのバックボーンネットワークとして、平らで非階層型視覚変換器(ViT)を探索する。
この設計により、オリジナルのViTアーキテクチャは、事前トレーニングのために階層的なバックボーンを再設計することなく、オブジェクト検出のために微調整できる。
微調整のための最小限の適応により、我々のプレーンバックボーン検出器は競争的な結果が得られる。
- 参考スコア(独自算出の注目度): 45.11365392273572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the plain, non-hierarchical Vision Transformer (ViT) as a backbone
network for object detection. This design enables the original ViT architecture
to be fine-tuned for object detection without needing to redesign a
hierarchical backbone for pre-training. With minimal adaptations for
fine-tuning, our plain-backbone detector can achieve competitive results.
Surprisingly, we observe: (i) it is sufficient to build a simple feature
pyramid from a single-scale feature map (without the common FPN design) and
(ii) it is sufficient to use window attention (without shifting) aided with
very few cross-window propagation blocks. With plain ViT backbones pre-trained
as Masked Autoencoders (MAE), our detector, named ViTDet, can compete with the
previous leading methods that were all based on hierarchical backbones,
reaching up to 61.3 box AP on the COCO dataset using only ImageNet-1K
pre-training. We hope our study will draw attention to research on
plain-backbone detectors. Code will be made available.
- Abstract(参考訳): 物体検出のためのバックボーンネットワークとして,非階層型視覚変換器(ViT)を探索する。
この設計により、オリジナルのViTアーキテクチャは、事前トレーニングのために階層的なバックボーンを再設計することなく、オブジェクト検出のために微調整できる。
微調整のための最小限の適応により、我々のプレーンバックボーン検出器は競争的な結果が得られる。
驚くべきことに
(i)単一スケールの特徴地図から(共通FPN設計なしで)単純な特徴ピラミッドを構築するだけで十分である。
(ii)非常に少ないクロスウインドウ伝搬ブロックでウィンドウアテンション(シフトなし)を使用するには十分である。
Masked Autoencoders (MAE) として事前トレーニングされたプレーンなViTバックボーンでは、ViTDetという名前の検出器が、階層的なバックボーンをベースとした以前のリードメソッドと競合し、ImageNet-1K事前トレーニングのみを使用してCOCOデータセット上の61.3ボックスAPに達する。
我々の研究は、プレーンバックボーン検出器の研究に注目されることを願っている。
コードは利用可能になる。
関連論文リスト
- Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection [128.40330044868293]
Vision Transformer (ViT) では、より単純なアーキテクチャが複数のドメインで有効であることが証明されている。
ViTADはMVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。
論文 参考訳(メタデータ) (2023-12-12T18:28:59Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - SimpleClick: Interactive Image Segmentation with Simple Vision
Transformers [28.36705396062827]
クリックベースのインタラクティブイメージセグメンテーションは、限られたユーザクリックでオブジェクトを抽出することを目的としている。
近年,高密度予測タスクのバックボーンとして,非階層型視覚変換器(ViT)が登場している。
アーキテクチャの単純さからSimpleClickと呼ばれる,対話型セグメンテーションのための最初のプレーンバックボーン手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T04:20:48Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - Unleashing Vanilla Vision Transformer with Masked Image Modeling for
Object Detection [39.37861288287621]
MIMで事前訓練されたバニラViTは、難しいオブジェクトレベルの認識シナリオで驚くほどうまく機能する。
ランダムなコンパクトなコンボリューションステムは、事前訓練された大きなカーネルのパッチフィケーションステムに取って代わる。
提案された検出器はMIMDetと呼ばれ、MIMで事前訓練されたバニラVITが2.3ボックスAPと2.5マスクAPで階層スウィントランスより優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-04-06T17:59:04Z) - You Only Look at One Sequence: Rethinking Transformer in Vision through
Object Detection [40.60384049195514]
You Only Look at One Sequence(ユー・オン・ワン・シークエンス・オブ・ワン・シークエンス)は、ナイーブ・ビジョン・トランスフォーマーに基づく一連の物体検出モデルである。
中間サイズのImageNet-$1k$データセットで事前トレーニングされたYOLOSは、すでに競合するオブジェクト検出性能を達成できるのみであることがわかった。
論文 参考訳(メタデータ) (2021-06-01T17:54:09Z) - Hit-Detector: Hierarchical Trinity Architecture Search for Object
Detection [67.84976857449263]
本稿では,オブジェクト検出器のすべてのコンポーネントに対して,効率的なアーキテクチャを同時に発見するための階層型三元探索フレームワークを提案する。
そこで我々は,各コンポーネントのエンドツーエンド検索を効率的に行うために,異なるコンポーネントに対して異なるサブ検索空間を自動的にスクリーニングする新しい手法を採用した。
検索したアーキテクチャ、すなわちhit-Detectorは、27Mパラメータを持つCOCOミニバルセット上で41.4%のmAPを達成する。
論文 参考訳(メタデータ) (2020-03-26T10:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。