論文の概要: CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting
and Anchor Pre-Matching
- arxiv url: http://arxiv.org/abs/2303.13076v1
- Date: Thu, 23 Mar 2023 07:13:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 15:23:13.640089
- Title: CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting
and Anchor Pre-Matching
- Title(参考訳): CORA: Region Prompting と Anchor Pre-Matching を用いた開語彙検出のためのCLIP適応
- Authors: Xiaoshi Wu, Feng Zhu, Rui Zhao, Hongsheng Li
- Abstract要約: 領域プロンプトとアンカー事前マッチングによる開語彙検出にCLIPを適用したフレームワークを提案する。
CORAはCOCO OVDベンチマークで41.7 AP50、LVIS OVDベンチマークで28.1 APrを達成した。
- 参考スコア(独自算出の注目度): 36.31910430275781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary detection (OVD) is an object detection task aiming at
detecting objects from novel categories beyond the base categories on which the
detector is trained. Recent OVD methods rely on large-scale visual-language
pre-trained models, such as CLIP, for recognizing novel objects. We identify
the two core obstacles that need to be tackled when incorporating these models
into detector training: (1) the distribution mismatch that happens when
applying a VL-model trained on whole images to region recognition tasks; (2)
the difficulty of localizing objects of unseen classes. To overcome these
obstacles, we propose CORA, a DETR-style framework that adapts CLIP for
Open-vocabulary detection by Region prompting and Anchor pre-matching. Region
prompting mitigates the whole-to-region distribution gap by prompting the
region features of the CLIP-based region classifier. Anchor pre-matching helps
learning generalizable object localization by a class-aware matching mechanism.
We evaluate CORA on the COCO OVD benchmark, where we achieve 41.7 AP50 on novel
classes, which outperforms the previous SOTA by 2.4 AP50 even without resorting
to extra training data. When extra training data is available, we train
CORA$^+$ on both ground-truth base-category annotations and additional pseudo
bounding box labels computed by CORA. CORA$^+$ achieves 43.1 AP50 on the COCO
OVD benchmark and 28.1 box APr on the LVIS OVD benchmark.
- Abstract(参考訳): オープン語彙検出(Open-vocabulary Detection, OVD)は、検出器が訓練される基本カテゴリを越えて、新しいカテゴリからオブジェクトを検出することを目的としたオブジェクト検出タスクである。
近年のOVD法は、CLIPのような大規模視覚言語事前学習モデルに頼っている。
我々は,これらのモデルを検出器訓練に取り入れる際に対処すべき2つの障害を同定する:(1)画像全体に基づいて訓練されたVLモデルを適用した場合の分布ミスマッチ,(2)見えないクラスのオブジェクトのローカライズが困難である。
このような障害を克服するために,領域のプロンプトとアンカーの事前マッチングによる開語彙検出にCLIPを適用するDETRスタイルのフレームワークであるCORAを提案する。
領域プロンプトはクリップベースの領域分類器の領域特徴を促進させることで、地域全体の分布ギャップを緩和する。
Anchor Pre-matchingは、クラス認識マッチングメカニズムによる一般化可能なオブジェクトのローカライゼーションの学習を支援する。
我々はCOCO OVDベンチマークでCORAを評価し、新しいクラスで41.7 AP50を達成し、余分なトレーニングデータに頼ることなく、以前のSOTAを2.4 AP50で上回った。
追加のトレーニングデータが利用可能であれば、ベースカテゴリアノテーションと、coraが計算した擬似境界ボックスラベルの両方でcora$^+$をトレーニングします。
CORA$^+$はCOCO OVDベンチマークで43.1 AP50、LVIS OVDベンチマークで28.1 APrを達成した。
関連論文リスト
- Region-centric Image-Language Pretraining for Open-Vocabulary Detection [39.17829005627821]
領域中心の画像言語事前学習に基づく新しいオープン語彙検出手法を提案する。
プレトレーニング段階では,分類バックボーン上に検出器アーキテクチャを組み込む。
我々のアプローチは、創発的なオブジェクト・セマンティックな手がかりを学習するための、対照的な学習方法の単純かつ効果的な拡張である。
論文 参考訳(メタデータ) (2023-09-29T21:56:37Z) - ECEA: Extensible Co-Existing Attention for Few-Shot Object Detection [52.16237548064387]
Few-shot Object Detection (FSOD) は、非常に少数のアノテーション付きサンプルからオブジェクトを識別する。
近年のFSOD法の多くは、2段階の学習パラダイムを適用しており、このパラダイムは豊富なベースクラスから学んだ知識を、グローバルな特徴を学習することで、数発の検知を補助する。
本研究では,局所的な部分に応じて大域的オブジェクトを推論するための拡張可能共存注意(ECEA)モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-15T06:55:43Z) - EdaDet: Open-Vocabulary Object Detection Using Early Dense Alignment [28.983503845298824]
本稿では,一般化可能な局所意味論とオブジェクトレベルの予測とのギャップを埋めるために,早期Dense Alignment (EDA)を提案する。
EDAでは、局所的なきめ細かなセマンティクスを維持するために、オブジェクトレベルのアライメントではなく、オブジェクトレベルのインシデントを学習するためにオブジェクトレベルのインシデントを使用します。
論文 参考訳(メタデータ) (2023-09-03T12:04:14Z) - What Makes Good Open-Vocabulary Detector: A Disassembling Perspective [6.623703413255309]
Open-vocabulary Detection (OVD)は、新しいオブジェクト検出パラダイムである。
先行研究は主にオープン語彙分類部に焦点をあて、ローカライゼーション部分にはあまり注意を払わなかった。
本研究は, 局所化とクロスモーダル分類の改善が相互に補完し, 良好なOVD検出器を共同で構成することを示す。
論文 参考訳(メタデータ) (2023-09-01T03:03:50Z) - F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language
Models [54.21757555804668]
F-VLMは,凍結視覚と言語モデルに基づくシンプルなオープン語彙オブジェクト検出手法である。
F-VLMは、知識蒸留や検出調整事前訓練の必要性を排除し、現在の多段階訓練パイプラインを単純化する。
論文 参考訳(メタデータ) (2022-09-30T17:59:52Z) - Refine and Represent: Region-to-Object Representation Learning [55.70715883351945]
本稿では、領域ベースとオブジェクト中心の事前学習を統一する領域対オブジェクト表現学習(R2O)を提案する。
R2Oは、エンコーダを訓練して、領域ベースのセグメントをオブジェクト中心のマスクに動的に洗練する。
ImageNetで事前トレーニングを行った後、R2Oモデルは教師なしオブジェクトセグメンテーションにおける既存の最先端技術を上回ることができる。
論文 参考訳(メタデータ) (2022-08-25T01:44:28Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。