論文の概要: Exploring Hierarchical Consistency and Unbiased Objectness for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2604.23344v1
- Date: Sat, 25 Apr 2026 15:06:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.283394
- Title: Exploring Hierarchical Consistency and Unbiased Objectness for Open-Vocabulary Object Detection
- Title(参考訳): 開語彙オブジェクト検出のための階層的一貫性と不偏性オブジェクトの探索
- Authors: Sanghoon Lee, Geon Lee, Hyekang Park, Bumsub Ham,
- Abstract要約: オープン語彙オブジェクト検出(OVD)のための新しい擬似ラベリングフレームワークを提案する。
提案手法は階層的信頼度キャリブレーション(HCC)手法を導入し,信頼性の高いクラスラベル推定を実現する。
また、ベースクラスバイアス問題を緩和するために、オブジェクト性トークンを組み込んだパラメータ効率の高いCLIP適応であるLoCLIPを提案する。
- 参考スコア(独自算出の注目度): 38.31141459207419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional object detectors typically operate under a closed-set assumption, limiting recognition to a predefined set of base classes seen during training. Open-vocabulary object detection (OVD) addresses this limitation by leveraging vision-language models (VLMs) to generate pseudo labels for novel object classes. However, existing OVD methods suffer from two critical drawbacks: (1) inaccurate class label assignments, as VLMs are optimized for image-level predictions rather than the region-level predictions required for pseudo labeling, and (2) unreliable objectness scores from region proposal networks (RPNs) trained exclusively on base object classes. To address these issues, we propose a novel pseudo labeling framework for OVD. Our approach introduces a hierarchical confidence calibration (HCC) technique, which ensures reliable class label estimation by assessing consistency across hierarchical semantic levels (class, super- and sub-category). We also present LoCLIP, a parameter-efficient adaptation of CLIP that incorporates an objectness token to mitigate base class bias problem of RPNs and provide reliable objectness estimations for novel object classes. Extensive experiments on standard OVD benchmarks, including COCO and LVIS, demonstrate that our approach clearly sets a new state of the art, validating the effectiveness of our approach. Project site: https://cvlab.yonsei.ac.kr/projects/HCC
- Abstract(参考訳): 従来の物体検出器は、通常、クローズドセットの仮定の下で動作し、訓練中に見られるベースクラスの事前に定義されたセットに認識を制限する。
オープン語彙オブジェクト検出(OVD)は、視覚言語モデル(VLM)を活用して、新しいオブジェクトクラスのための擬似ラベルを生成することで、この制限に対処する。
しかし,既存の OVD 手法では,(1) VLM が擬似ラベリングに必要な領域レベルの予測よりも画像レベルの予測に最適化されるため,(1) 基本オブジェクトクラスに特化して訓練された領域提案ネットワーク(RPN) からの信頼できないオブジェクト性スコアの2つの重大な欠点がある。
これらの課題に対処するために,OVDのための新しい擬似ラベリングフレームワークを提案する。
本手法では,階層的セマンティックレベル(クラス,スーパー,サブカテゴリ)間の整合性を評価することによって,信頼性の高いクラスラベル推定を実現する。
また、RPNのベースクラスバイアス問題を軽減するためにオブジェクト性トークンを組み込んだCLIPのパラメータ効率の高い適応であるLoCLIPを提案し、新しいオブジェクトクラスに対する信頼性の高いオブジェクト性推定を提供する。
COCO や LVIS を含む標準 OVD ベンチマークの広範な実験により、我々のアプローチは明らかに新しい最先端の手法を定め、我々のアプローチの有効性を検証している。
プロジェクトサイト: https://cvlab.yonsei.ac.kr/projects/HCC
関連論文リスト
- Bayesian Test-time Adaptation for Object Recognition and Detection with Vision-language Models [86.53246292425699]
我々は、オブジェクト認識と検出の両方のためのTTAのためのトレーニングフリーフレームワークであるBCA+を提案する。
我々はベイズ推論問題として適応を定式化し、キャッシュベースの予測で初期VLM出力を融合することで最終的な予測を生成する。
BCA+は、認識と検出のベンチマークの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-03T06:27:33Z) - Attention-disentangled Uniform Orthogonal Feature Space Optimization for Few-shot Object Detection [20.748630029722257]
Few-shot Object Detection (FSOD) は、新しいクラスのための限られたサンプルを持つオブジェクトを検出することを目的としている。
既存のFSODアプローチは、主にFaster R-CNN検出器上に構築されている。
クラス非依存のオブジェクト性知識をベースクラスから新しいクラスに転送するための一様直交特徴空間(UOFS)最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T12:17:04Z) - Training-free Boost for Open-Vocabulary Object Detection with Confidence Aggregation [3.0899016152680754]
Open-vocabulary Object Detection (OVOD) は、訓練時に見えない新しいクラスから視覚オブジェクトをローカライズし、認識することを目的としている。
本稿では,この問題を2段階のOVODパラダイムを用いて体系的に検討する。
この問題を軽減するために, 信頼度を調整し, 誤って削除対象を保存するための2つの高度な対策を提案する。
論文 参考訳(メタデータ) (2024-04-12T17:02:56Z) - Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning [13.667326007851674]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - EdaDet: Open-Vocabulary Object Detection Using Early Dense Alignment [28.983503845298824]
本稿では,一般化可能な局所意味論とオブジェクトレベルの予測とのギャップを埋めるために,早期Dense Alignment (EDA)を提案する。
EDAでは、局所的なきめ細かなセマンティクスを維持するために、オブジェクトレベルのアライメントではなく、オブジェクトレベルのインシデントを学習するためにオブジェクトレベルのインシデントを使用します。
論文 参考訳(メタデータ) (2023-09-03T12:04:14Z) - Ambiguity-Resistant Semi-Supervised Learning for Dense Object Detection [98.66771688028426]
本研究では,一段階検出器のためのAmbiguity-Resistant Semi-supervised Learning (ARSL)を提案する。
擬似ラベルの分類とローカライズ品質を定量化するために,JCE(Joint-Confidence Estimation)を提案する。
ARSLは、曖昧さを効果的に軽減し、MS COCOおよびPASCALVOC上で最先端のSSOD性能を達成する。
論文 参考訳(メタデータ) (2023-03-27T07:46:58Z) - UDA-COPE: Unsupervised Domain Adaptation for Category-level Object Pose
Estimation [84.16372642822495]
我々は、textbfUDA-COPEと呼ばれるカテゴリレベルのオブジェクトポーズ推定のための教師なしドメイン適応(UDA)を提案する。
近年のマルチモーダルなUDA手法に触発された提案手法は,教師が指導する自己教師型学習手法を利用して,ターゲットドメインラベルを使わずにポーズ推定ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-11-24T16:00:48Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。