論文の概要: Open Vocabulary Object Detection with Proposal Mining and Prediction
Equalization
- arxiv url: http://arxiv.org/abs/2206.11134v2
- Date: Fri, 24 Jun 2022 08:58:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 10:51:25.433111
- Title: Open Vocabulary Object Detection with Proposal Mining and Prediction
Equalization
- Title(参考訳): 提案マイニングと予測等化を用いたオープン語彙物体検出
- Authors: Peixian Chen, Kekai Sheng, Mengdan Zhang, Yunhang Shen, Ke Li, Chunhua
Shen
- Abstract要約: Open-vocabulary Object Detection (OVD)は、学習語彙以外の新しいカテゴリのオブジェクトを検出するために、語彙サイズを拡大することを目的としている。
最近の研究は、事前訓練された視覚言語モデルにおける豊富な知識に頼っている。
本稿では,提案するマイニングと予測等化を備えた新しいOVDフレームワークMEDetを提案する。
- 参考スコア(独自算出の注目度): 73.14053674836838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary object detection (OVD) aims to scale up vocabulary size to
detect objects of novel categories beyond the training vocabulary. Recent work
resorts to the rich knowledge in pre-trained vision-language models. However,
existing methods are ineffective in proposal-level vision-language alignment.
Meanwhile, the models usually suffer from confidence bias toward base
categories and perform worse on novel ones. To overcome the challenges, we
present MEDet, a novel and effective OVD framework with proposal mining and
prediction equalization. First, we design an online proposal mining to refine
the inherited vision-semantic knowledge from coarse to fine, allowing for
proposal-level detection-oriented feature alignment. Second, based on causal
inference theory, we introduce a class-wise backdoor adjustment to reinforce
the predictions on novel categories to improve the overall OVD performance.
Extensive experiments on COCO and LVIS benchmarks verify the superiority of
MEDet over the competing approaches in detecting objects of novel categories,
e.g., 32.6% AP50 on COCO and 22.4% mask mAP on LVIS.
- Abstract(参考訳): Open-vocabulary Object Detection (OVD)は、学習語彙以外の新しいカテゴリのオブジェクトを検出するために、語彙サイズを拡大することを目的としている。
最近の研究は、事前訓練された視覚言語モデルにおける豊富な知識に頼っている。
しかし、既存の手法は提案レベルの視覚言語アライメントでは効果がない。
一方、モデルは通常、基本カテゴリに対する信頼バイアスに苦しめられ、新しいカテゴリではパフォーマンスが悪化する。
この課題を克服するために,提案マイニングと予測等化を用いた新規かつ効果的なovdフレームワークであるmedetを提案する。
まず,提案手法を設計し,遺伝的知識を粗いものから細かいものへと改良し,提案レベルの検出指向の特徴アライメントを実現する。
第二に, 因果推論理論に基づき, 新たなカテゴリーの予測を強化し, 全体のovd性能を向上させるために, クラス毎のバックドア調整を導入する。
COCOおよびLVISベンチマークの広範囲にわたる実験は、新しいカテゴリのオブジェクト(例えば、COCOでは32.6% AP50、LVISでは22.4%マスクmAP)の検出において、MEDetが競合するアプローチよりも優れていることを検証している。
関連論文リスト
- MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction [63.668635390907575]
既存の手法は、視覚言語モデル(VLM)の頑健なオープン語彙認識機能を活用することにより、オープン語彙オブジェクト検出を強化している。
本稿では,視覚的概念間の関係を生かしたLanguage Model Instruction(LaMI)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-16T02:58:33Z) - Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection [101.15777242546649]
Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。
近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達している。
本稿では,暗黙的背景知識を活用するための学習バックグラウンドプロンプトを提案するため,LBPと呼ばれる新しいOVDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T17:32:26Z) - Training-free Boost for Open-Vocabulary Object Detection with Confidence Aggregation [3.0899016152680754]
Open-vocabulary Object Detection (OVOD) は、訓練時に見えない新しいクラスから視覚オブジェクトをローカライズし、認識することを目的としている。
本稿では,この問題を2段階のOVODパラダイムを用いて体系的に検討する。
この問題を軽減するために, 信頼度を調整し, 誤って削除対象を保存するための2つの高度な対策を提案する。
論文 参考訳(メタデータ) (2024-04-12T17:02:56Z) - Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization [63.66349334291372]
本稿ではメタプロンプトとインスタンスコントラスト学習(MIC)方式を用いたフレームワークを提案する。
まず、クラスとバックグラウンドのプロンプトを学習するプロンプトが新しいクラスに一般化するのを助けるために、新しいクラスエマージシナリオをシミュレートする。
第二に、クラス内コンパクト性とクラス間分離を促進するためのインスタンスレベルのコントラスト戦略を設計し、新しいクラスオブジェクトに対する検出器の一般化に寄与する。
論文 参考訳(メタデータ) (2024-03-14T14:25:10Z) - EdaDet: Open-Vocabulary Object Detection Using Early Dense Alignment [28.983503845298824]
本稿では,一般化可能な局所意味論とオブジェクトレベルの予測とのギャップを埋めるために,早期Dense Alignment (EDA)を提案する。
EDAでは、局所的なきめ細かなセマンティクスを維持するために、オブジェクトレベルのアライメントではなく、オブジェクトレベルのインシデントを学習するためにオブジェクトレベルのインシデントを使用します。
論文 参考訳(メタデータ) (2023-09-03T12:04:14Z) - How to Evaluate the Generalization of Detection? A Benchmark for
Comprehensive Open-Vocabulary Detection [25.506346503624894]
我々は,9つのサブタスクを含むOVDEvalという新しいベンチマークを提案し,コモンセンス知識の評価を導入する。
データセットは、モデルによる視覚的および言語的入力の真の理解に挑戦する強烈なネガティブを提供するために、慎重に作成されます。
論文 参考訳(メタデータ) (2023-08-25T04:54:32Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。