論文の概要: NoOVD: Novel Category Discovery and Embedding for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2603.21069v1
- Date: Sun, 22 Mar 2026 05:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.223691
- Title: NoOVD: Novel Category Discovery and Embedding for Open-Vocabulary Object Detection
- Title(参考訳): NoOVD: オープン語彙オブジェクト検出のための新しいカテゴリ発見と埋め込み
- Authors: Yupeng Zhang, Ruize Han, Zhiwei Chen, Wei Feng, Liang Wan,
- Abstract要約: オープン語彙オブジェクト検出(OVD)のための新しいトレーニングフレームワークを提案する。
NoOVDは凍結視覚言語モデル(VLM)の知識に基づく自己蒸留機構を統合する
R-RPNを導入し、推論中の提案の信頼度を調整し、新規カテゴリオブジェクトのリコールを改善する。
- 参考スコア(独自算出の注目度): 38.03338313237983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable progress in open-vocabulary object detection (OVD), a significant gap remains between the training and testing phases. During training, the RPN and RoI heads often misclassify unlabeled novel-category objects as background, causing some proposals to be prematurely filtered out by the RPN while others are further misclassified by the RoI head. During testing, these proposals again receive low scores and are removed in post-processing, leading to a significant drop in recall and ultimately weakening novel-category detection performance.To address these issues, we propose a novel training framework-NoOVD-which innovatively integrates a self-distillation mechanism grounded in the knowledge of frozen vision-language models (VLMs). Specifically, we design K-FPN, which leverages the pretrained knowledge of VLMs to guide the model in discovering novel-category objects and facilitates knowledge distillation-without requiring additional data-thus preventing forced alignment of novel objects with background.Additionally, we introduce R-RPN, which adjusts the confidence scores of proposals during inference to improve the recall of novel-category objects. Cross-dataset evaluations on OV-LVIS, OV-COCO, and Objects365 demonstrate that our approach consistently achieves superior performance across multiple metrics.
- Abstract(参考訳): オープン語彙オブジェクト検出(OVD)の顕著な進歩にもかかわらず、トレーニングとテストフェーズの間には大きなギャップが残っている。
トレーニング中、RPNとRoIのヘッドはラベルのない新規カテゴリーのオブジェクトを背景として誤って分類し、いくつかの提案はRPNによって早期にフィルタリングされ、他の提案はRoIのヘッドによってさらに誤って分類される。
これらの課題に対処するため,凍結視覚言語モデル(VLM)の知識を基盤とした自己蒸留機構を革新的に統合した新しいトレーニングフレームワーク,NoOVDを提案する。
具体的には、VLMの事前訓練された知識を活用して、新しいカテゴリオブジェクトの発見を誘導し、新しいカテゴリオブジェクトの背景への強制的なアライメントを必要とせずに、知識蒸留を促進するK-FPNを設計し、さらに、推論中に提案された提案の信頼性スコアを調整するR-RPNを導入し、新規カテゴリオブジェクトのリコールを改善する。
OV-LVIS、OV-COCO、Objects365のデータセット間の評価は、我々のアプローチが複数のメトリクスにわたって常に優れたパフォーマンスを達成することを示す。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - OV-DQUO: Open-Vocabulary DETR with Denoising Text Query Training and Open-World Unknown Objects Supervision [22.493305132568477]
オープンボキャブラリ検出は、検出器が訓練された基本カテゴリを超えて、新しいカテゴリからオブジェクトを検出することを目的としている。
我々はtextbfQuery トレーニングとオープンワールド textbfObjects の監督を行う textbf Open-textbfVocabulary DETR である OV-DQUO を提案する。
論文 参考訳(メタデータ) (2024-05-28T07:33:27Z) - Training-free Boost for Open-Vocabulary Object Detection with Confidence Aggregation [3.0899016152680754]
Open-vocabulary Object Detection (OVOD) は、訓練時に見えない新しいクラスから視覚オブジェクトをローカライズし、認識することを目的としている。
本稿では,この問題を2段階のOVODパラダイムを用いて体系的に検討する。
この問題を軽減するために, 信頼度を調整し, 誤って削除対象を保存するための2つの高度な対策を提案する。
論文 参考訳(メタデータ) (2024-04-12T17:02:56Z) - Debiased Novel Category Discovering and Localization [40.02326438622898]
新たなクラスディスカバリー・ローカライゼーション(NCDL)の課題に焦点をあてる。
本稿では,クラス非依存領域提案ネットワーク(RPN)とクラス対応RPNを組み合わせたデバイアスドリージョンマイニング(DRM)手法を提案する。
我々はNCDLベンチマークで広範な実験を行い、提案手法が従来の手法よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2024-02-29T03:09:16Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Identification of Novel Classes for Improving Few-Shot Object Detection [12.013345715187285]
Few-shot Object Detection (FSOD) メソッドは、クラス毎に少数のトレーニングサンプルのみを使用して、堅牢なオブジェクト検出を実現することで、改善を提供する。
我々は、FSOD性能を向上させるためのトレーニング中に、未ラベルの新規物体を正のサンプルとして検出し、利用するための半教師付きアルゴリズムを開発した。
実験の結果,本手法は既存のSOTA FSOD法よりも有効であり,優れた結果が得られた。
論文 参考訳(メタデータ) (2023-03-18T14:12:52Z) - Open Vocabulary Object Detection with Proposal Mining and Prediction
Equalization [73.14053674836838]
Open-vocabulary Object Detection (OVD)は、学習語彙以外の新しいカテゴリのオブジェクトを検出するために、語彙サイズを拡大することを目的としている。
最近の研究は、事前訓練された視覚言語モデルにおける豊富な知識に頼っている。
本稿では,提案するマイニングと予測等化を備えた新しいOVDフレームワークMEDetを提案する。
論文 参考訳(メタデータ) (2022-06-22T14:30:41Z) - Incremental-DETR: Incremental Few-Shot Object Detection via
Self-Supervised Learning [60.64535309016623]
本稿では,DeTRオブジェクト検出器上での微調整および自己教師型学習によるインクリメンタル・デクリメンタル・デクリメンタル・デクリメンタル・オブジェクト検出を提案する。
まず,DeTRのクラス固有のコンポーネントを自己監督で微調整する。
さらに,DeTRのクラス固有のコンポーネントに知識蒸留を施した数発の微調整戦略を導入し,破滅的な忘れを伴わずに新しいクラスを検出するネットワークを奨励する。
論文 参考訳(メタデータ) (2022-05-09T05:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。