論文の概要: Detection-Oriented Image-Text Pretraining for Open-Vocabulary Detection
- arxiv url: http://arxiv.org/abs/2310.00161v1
- Date: Fri, 29 Sep 2023 21:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 06:12:42.519759
- Title: Detection-Oriented Image-Text Pretraining for Open-Vocabulary Detection
- Title(参考訳): オープンボキャブラリ検出のための画像テキスト事前学習
- Authors: Dahun Kim, Anelia Angelova, Weicheng Kuo
- Abstract要約: 本稿では,検出指向画像テキスト事前学習に基づく新しいオープン語彙検出手法を提案する。
一般的なLVISオープン語彙検出ベンチマークでは、一般的なViT-Lバックボーンを用いて40.4マスクAP$_r$の新たな状態を設定する。
- 参考スコア(独自算出の注目度): 44.03247177599605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new open-vocabulary detection approach based on
detection-oriented image-text pretraining to bridge the gap between image-level
pretraining and open-vocabulary object detection. At the pretraining phase, we
replace the commonly used classification architecture with the detector
architecture, which better serves the region-level recognition needs of
detection by enabling the detector heads to learn from noisy image-text pairs.
Using only standard contrastive loss and no pseudo-labeling, our approach is a
simple yet effective extension of the contrastive learning method to learn
emergent object-semantic cues. In addition, we propose a shifted-window
learning approach upon window attention to make the backbone representation
more robust, translation-invariant, and less biased by the window pattern. On
the popular LVIS open-vocabulary detection benchmark, our approach sets a new
state of the art of 40.4 mask AP$_r$ using the common ViT-L backbone,
significantly outperforming the best existing approach by +6.5 mask AP$_r$ at
system level. On the COCO benchmark, we achieve very competitive 40.8 novel AP
without pseudo labeling or weak supervision. In addition, we evaluate our
approach on the transfer detection setup, where ours outperforms the baseline
significantly. Visualization reveals emerging object locality from the
pretraining recipes compared to the baseline. Code and models will be publicly
released.
- Abstract(参考訳): 本稿では,画像レベルのプリトレーニングとオープンボキャブラリオブジェクト検出のギャップを埋めるために,検出指向画像テキストプリトレーニングに基づく新しいオープンボキャブラリ検出手法を提案する。
事前学習の段階では,一般的な分類アーキテクチャを検出器アーキテクチャに置き換えることにより,検出ヘッドがノイズの多い画像テキストペアから学習することを可能にすることにより,検出領域レベルの認識ニーズを改善する。
標準のコントラスト損失と擬似ラベルを使わずに、このアプローチは、創発的なオブジェクト・セマンティクスの手がかりを学ぶためのコントラスト学習法の単純かつ効果的な拡張である。
さらに,ウィンドウに注意を向けたシフトウィンドウ学習アプローチを提案し,バックボーン表現をより堅牢で,翻訳不変で,ウィンドウパターンに偏りを少なくする。
一般的なLVISオープン語彙検出ベンチマークでは、一般的なViT-Lバックボーンを用いて40.4マスクAP$_r$の新たな状態を設定し、システムレベルでは+6.5マスクAP$_r$よりも優れた既存のアプローチを実現している。
COCOベンチマークでは、擬似ラベル付けや弱い監督なしに、非常に競争力のある40.8の新規APを達成する。
さらに,転送検出装置に対する我々のアプローチを評価し,ベースラインを著しく上回る結果を得た。
可視化は、ベースラインと比較して事前学習されたレシピから出現するオブジェクトの局所性を明らかにする。
コードとモデルは公開される予定だ。
関連論文リスト
- EdaDet: Open-Vocabulary Object Detection Using Early Dense Alignment [28.983503845298824]
本稿では,一般化可能な局所意味論とオブジェクトレベルの予測とのギャップを埋めるために,早期Dense Alignment (EDA)を提案する。
EDAでは、局所的なきめ細かなセマンティクスを維持するために、オブジェクトレベルのアライメントではなく、オブジェクトレベルのインシデントを学習するためにオブジェクトレベルのインシデントを使用します。
論文 参考訳(メタデータ) (2023-09-03T12:04:14Z) - Contrastive Feature Masking Open-Vocabulary Vision Transformer [44.03247177599605]
コントラスト特徴マスキングビジョントランス(CFM-ViT)
Open-vocabulary Object Detection (OVD)のための画像と領域レベルの同時学習を実現する画像テキスト事前学習手法
論文 参考訳(メタデータ) (2023-09-02T01:12:48Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - Localized Vision-Language Matching for Open-vocabulary Object Detection [41.98293277826196]
本稿では,新しいオブジェクトクラスと既知のクラスを同時に検出することを学ぶオープンワールドオブジェクト検出手法を提案する。
これは2段階の訓練手法であり、まず位置誘導画像キャプチャマッチング技術を用いてクラスラベルを学習する。
単純な言語モデルは、新しいオブジェクトを検出するための大きな文脈化言語モデルよりも適していることを示す。
論文 参考訳(メタデータ) (2022-05-12T15:34:37Z) - Learning to Prompt for Open-Vocabulary Object Detection with
Vision-Language Model [34.85604521903056]
オープン語彙オブジェクト検出のための連続的なプロンプト表現を学習するための新しい手法である検出プロンプト(DetPro)を導入する。
私たちは最近の最先端のオープンワールドオブジェクト検出器であるViLDでDetProを組み立てます。
実験の結果、DetProはすべての設定でベースラインのViLDよりも優れています。
論文 参考訳(メタデータ) (2022-03-28T17:50:26Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。