論文の概要: The Detector Teaches Itself: Lightweight Self-Supervised Adaptation for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2605.03642v1
- Date: Tue, 05 May 2026 11:14:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.913974
- Title: The Detector Teaches Itself: Lightweight Self-Supervised Adaptation for Open-Vocabulary Object Detection
- Title(参考訳): 検出器が自己評価する:オープンボキャブラリ物体検出のための軽量自己監督型適応
- Authors: Yazhe Wan, Changjae Oh,
- Abstract要約: Open-vocabulary Object Detectionは、大規模画像テキストデータに基づいて事前訓練された視覚言語モデル(VLM)を活用するオープンセットカテゴリからオブジェクトを認識することを目的としている。
本稿では、協調モデルに基づく物体検出のためのVLMを改善するための自己教師型微調整手法であるDecoupled Adaptivity Trainingを提案する。
COCOとLVISデータセットの実験は、DATが新しいカテゴリと既知のカテゴリの両方における検出性能を一貫して改善していることを示している。
- 参考スコア(独自算出の注目度): 8.847667302225156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary object detection aims to recognize objects from an open set of categories, which leverages vision-language models (VLMs) pre-trained on large-scale image-text data. The cooperative paradigm combines an object detector with a VLM to achieve zero-shot recognition of novel objects. However, VLMs pre-trained on full images often struggle to capture local object details, limiting their effectiveness when applied to region-level detection. We present Decoupled Adaptivity Training (DAT), a self-supervised fine-tuning approach to improve VLMs for cooperative model-based object detection. Given a cooperative model consists of a closed-set detector and a VLM, we first construct a region-aware pseudo-labeled dataset using a pre-trained closed-set object detector, in which regions corresponding to novel objects may be present but remain unlabeled or mislabeled. We then fine-tune the visual backbone of the VLM in a decoupled manner, which enhances local feature alignment while preserving global semantic knowledge via weight interpolation. DAT is a plug-and-play module that requires no inference overhead and fine-tunes less than 0.8M parameters. Experiments on the COCO and LVIS datasets show that DAT consistently improves detection performance on both novel and known categories, establishing a new state of the art in cooperative open-vocabulary detection.
- Abstract(参考訳): オープン語彙オブジェクト検出は、大規模画像テキストデータに基づいて事前学習された視覚言語モデル(VLM)を活用する、オープンなカテゴリからオブジェクトを認識することを目的としている。
協調パラダイムは、オブジェクト検出器とVLMを組み合わせることで、新しいオブジェクトのゼロショット認識を実現する。
しかしながら、フルイメージで事前トレーニングされたVLMは、ローカルオブジェクトの詳細をキャプチャするのに苦労することが多く、リージョンレベルの検出に適用した場合の有効性が制限される。
本稿では、協調モデルに基づく物体検出のためのVLMを改善するための自己教師型微調整手法であるDecoupled Adaptivity Training (DAT)を提案する。
協調モデルが閉集合検出器とVLMで構成されていることを前提として,我々はまず,新規な対象に対応する領域が存在するがラベルが付かない領域やラベルが付かない領域を含む,事前訓練された閉集合オブジェクト検出器を用いて,領域対応の擬似ラベル付きデータセットを構築した。
次に、VLMの視覚的バックボーンを疎結合で微調整し、重み補間によるグローバルな意味知識を維持しながら、局所的な特徴アライメントを高める。
DATはプラグイン・アンド・プレイモジュールで、推測オーバーヘッドや0.8M未満の微調整を必要としない。
COCOデータセットとLVISデータセットの実験により、DATは新規および既知のカテゴリの検知性能を一貫して改善し、協調的なオープン語彙検出における新しい最先端技術を確立した。
関連論文リスト
- OW-Rep: Open World Object Detection with Instance Representation Learning [1.8749305679160366]
Open World Object Detection (OWOD)は、見えないオブジェクトクラスが出現する現実的なシナリオに対処する。
OWODフレームワークを拡張して、未知のオブジェクトを共同で検出し、セマンティックにリッチなインスタンス埋め込みを学ぶ。
論文 参考訳(メタデータ) (2024-09-24T13:13:34Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Simple Image-level Classification Improves Open-vocabulary Object
Detection [27.131298903486474]
Open-Vocabulary Object Detection (OVOD) は、検出モデルが訓練された与えられたベースカテゴリのセットを超えて、新しいオブジェクトを検出することを目的としている。
近年のOVOD法は,CLIPなどの画像レベルの事前学習型視覚言語モデル(VLM)を,地域レベルの知識蒸留,地域レベルの学習,地域レベルの事前学習といった領域レベルのオブジェクト検出タスクに適応させることに重点を置いている。
これらの手法は、地域視覚概念の認識において顕著な性能を示してきたが、VLMの強力なグローバルシーン理解能力を活用するには弱い。
論文 参考訳(メタデータ) (2023-12-16T13:06:15Z) - Enhancing Novel Object Detection via Cooperative Foundational Models [68.93124785575739]
本稿では,既存のクローズドセット検出器をオープンセット検出器に変換する新しい手法を提案する。
私たちは、新しいクラスに対して7.2$ textAP_50 のマージンで現在の最先端を越えています。
論文 参考訳(メタデータ) (2023-11-19T17:28:28Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。