論文の概要: CoT-PL: Visual Chain-of-Thought Reasoning Meets Pseudo-Labeling for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2510.14792v1
- Date: Thu, 16 Oct 2025 15:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.92188
- Title: CoT-PL: Visual Chain-of-Thought Reasoning Meets Pseudo-Labeling for Open-Vocabulary Object Detection
- Title(参考訳): CoT-PL:オープン語彙オブジェクト検出のための擬似ラベル処理
- Authors: Hojun Choi, Youngsun Lim, Jaeyo Shin, Hyunjung Shim,
- Abstract要約: 擬似ラベル処理に構造化された視覚連鎖(CoT)推論を利用する新しいフレームワークであるCoT-PLを紹介する。
CoT-PLは、オブジェクト理解を3つの解釈可能なステップに分解する。
実験の結果,CoT-PLはオープン語彙COCOでは+7.7 AP50,LVISでは+2.9マスクAPを達成でき,新たな技術が確立された。
- 参考スコア(独自算出の注目度): 25.36964384934816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary object detection (OVD) seeks to recognize and localize object categories beyond those seen during training. Recent approaches typically leverage vision-language models (VLMs) to generate pseudo-labels using image-text alignment, allowing detectors to generalize to unseen classes without explicit supervision. However, these methods depend heavily on direct image-text matching, neglecting the intermediate reasoning steps essential for interpreting semantically complex scenes. This results in limited robustness when confronted with crowded or occluded visual contexts. In this paper, we introduce CoT-PL, a new framework that employs structured visual chain-of-thought (CoT) reasoning into the pseudo-labeling process. CoT-PL decomposes object understanding into three interpretable steps: (1) region perception even for unseen objects, (2) category recognition via zero-shot reasoning, and (3) background grounding to separate semantically complex objects. Crucially, the third step naturally motivates our contrastive background learning (CBL) that uses the pre-computed background cues as negatives to promote feature disentanglement between objects and background. In this way, CoT reasoning and CBL form an integrated pipeline tailored to robust pseudo-labeling in crowded or occluded scenes. Notably, in these two settings, our novel-class pseudo-label quality achieves relative improvements of 103.4% and 168.4% over the best prior, respectively. Our extensive experiments demonstrate that CoT-PL achieves +7.7 AP50 on open-vocabulary COCO and +2.9 mask AP on LVIS for novel classes, setting a new state of the art.
- Abstract(参考訳): オープンボキャブラリオブジェクト検出(OVD)は、トレーニング中に見られるもの以上のオブジェクトカテゴリを認識し、ローカライズすることを目指している。
近年のアプローチでは、視覚言語モデル(VLM)を用いて画像テキストアライメントを用いて擬似ラベルを生成する。
しかし、これらの手法は、意味論的に複雑な場面を解釈するのに不可欠な中間的推論ステップを無視し、直接画像テキストマッチングに大きく依存する。
これにより、混み合ったり隠された視覚的コンテキストに直面するときの頑丈さが制限される。
本稿では,構造化視覚連鎖(CoT)推論を擬似ラベル処理に応用した新しいフレームワークであるCoT-PLを紹介する。
CoT-PLは、オブジェクト理解を3つの解釈可能なステップに分解する: (1) 目に見えないオブジェクトであっても領域認識、(2) ゼロショット推論によるカテゴリ認識、(3) 意味論的に複雑なオブジェクトを分離するための背景グラウンド。
重要なことに、3番目のステップは、対象と背景の間の特徴のゆがみを促進するために、事前計算された背景手がかりを負として使用する、対照的な背景学習(CBL)を自然に動機付けます。
このように、CoT推論とCBLは、混み合ったシーンや閉ざされたシーンにおいて、堅牢な擬似ラベル付けに適した統合パイプラインを形成する。
この2つの設定において, 新規な擬似ラベルの品質は, 最上位の103.4%と168.4%の相対的な改善を達成している。
オープンボキャブラリーCOCOで+7.7 AP50、新しいクラスで+2.9マスクAPをLVISで達成し、新しい最先端技術を確立した。
関連論文リスト
- Cyclic Contrastive Knowledge Transfer for Open-Vocabulary Object Detection [11.497620257835964]
我々は、余分な監督なしに訓練されたCCKT-Detを提案する。
提案フレームワークは,視覚言語モデル(VLM)から抽出した言語クエリと視覚領域の特徴から,循環的かつ動的に知識を伝達する。
CCKT-Detは、VLMの規模が大きくなるにつれて常に性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-14T02:04:28Z) - LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition [56.22672276092373]
半教師付き学習は、表情認識におけるラベル不足の課題に取り組むための有望なアプローチとして現れてきた。
半教師付きFERのための表現関連表現と擬似ラベルを協調する統合フレームワークであるhierarchicaL dEcoupling And Fusing (LEAF)を提案する。
論文 参考訳(メタデータ) (2024-04-23T13:43:33Z) - OV-NeRF: Open-vocabulary Neural Radiance Fields with Vision and Language Foundation Models for 3D Semantic Understanding [9.25233177676278]
OV-NeRFは、事前訓練されたビジョンと言語基盤モデルのポテンシャルを利用して、セマンティックフィールド学習を強化する。
提案手法は, Replica と ScanNet の mIoU 測定値において, 20.31% と 18.42% の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-02-07T08:19:57Z) - CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary
Object Detection [78.0010542552784]
CoDetはオープン語彙オブジェクト検出のためのオブジェクトレベルの視覚言語表現を学習するための新しいアプローチである。
共有概念に言及するイメージをキャプションにグループ化することにより、共有概念に対応するオブジェクトは、高い共起性を示す。
CoDetは、オープン語彙検出において優れたパフォーマンスと魅力的なスケーラビリティを持っている。
論文 参考訳(メタデータ) (2023-10-25T14:31:02Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。