論文の概要: Enhancing Open-Vocabulary Object Detection through Multi-Level Fine-Grained Visual-Language Alignment
- arxiv url: http://arxiv.org/abs/2602.00531v1
- Date: Sat, 31 Jan 2026 05:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.239541
- Title: Enhancing Open-Vocabulary Object Detection through Multi-Level Fine-Grained Visual-Language Alignment
- Title(参考訳): 多層ファイングレード視覚言語アライメントによるオープン語彙オブジェクト検出の強化
- Authors: Tianyi Zhang, Antoine Simoulin, Kai Li, Sana Lakdawala, Shiqing Yu, Arpit Mittal, Hongyu Fu, Yu Lin,
- Abstract要約: オープン語彙オブジェクト検出(OVD)は、トレーニングセットに存在しない新しいクラスからのオブジェクトの識別を可能にする。
視覚言語モデリングの最近の進歩は、OVDの著しい進歩をもたらした。
本稿では,視覚言語アライメントのための特徴ピラミッドを改良した新しいフレームワークであるVisual-Language Detection (VLDet)を提案する。
- 参考スコア(独自算出の注目度): 14.066865082355696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional object detection systems are typically constrained to predefined categories, limiting their applicability in dynamic environments. In contrast, open-vocabulary object detection (OVD) enables the identification of objects from novel classes not present in the training set. Recent advances in visual-language modeling have led to significant progress of OVD. However, prior works face challenges in either adapting the single-scale image backbone from CLIP to the detection framework or ensuring robust visual-language alignment. We propose Visual-Language Detection (VLDet), a novel framework that revamps feature pyramid for fine-grained visual-language alignment, leading to improved OVD performance. With the VL-PUB module, VLDet effectively exploits the visual-language knowledge from CLIP and adapts the backbone for object detection through feature pyramid. In addition, we introduce the SigRPN block, which incorporates a sigmoid-based anchor-text contrastive alignment loss to improve detection of novel categories. Through extensive experiments, our approach achieves 58.7 AP for novel classes on COCO2017 and 24.8 AP on LVIS, surpassing all state-of-the-art methods and achieving significant improvements of 27.6% and 6.9%, respectively. Furthermore, VLDet also demonstrates superior zero-shot performance on closed-set object detection.
- Abstract(参考訳): 従来のオブジェクト検出システムは、通常、事前に定義されたカテゴリに制約され、動的環境における適用性を制限する。
対照的に、オープン語彙オブジェクト検出(OVD)は、トレーニングセットに存在しない新しいクラスからのオブジェクトの識別を可能にする。
視覚言語モデリングの最近の進歩は、OVDの著しい進歩をもたらした。
しかし、以前の作業では、CLIPから検出フレームワークに単一スケールのイメージバックボーンを適用するか、堅牢な視覚言語アライメントを保証するかの課題に直面していた。
視覚言語アライメントのための特徴ピラミッドを改良した新しいフレームワークであるVisual-Language Detection (VLDet)を提案する。
VL-PUBモジュールでは、VLDetはCLIPからの視覚言語知識を効果的に活用し、機能ピラミッドを通じてオブジェクトの検出にバックボーンを適用する。
さらに、SigRPNブロックを導入し、SigRPNブロックは、新しいカテゴリの検出を改善するために、シグモノイドベースのアンカーテキストコントラストアライメントロスを組み込む。
広汎な実験により,COCO2017とLVISの24.8の授業において58.7のAPを達成し,最先端の手法を全て上回り,それぞれ27.6%,6.9%の大幅な改善を実現した。
さらに、VLDetはクローズドセットオブジェクト検出において優れたゼロショット性能を示す。
関連論文リスト
- Cyclic Contrastive Knowledge Transfer for Open-Vocabulary Object Detection [11.497620257835964]
我々は、余分な監督なしに訓練されたCCKT-Detを提案する。
提案フレームワークは,視覚言語モデル(VLM)から抽出した言語クエリと視覚領域の特徴から,循環的かつ動的に知識を伝達する。
CCKT-Detは、VLMの規模が大きくなるにつれて常に性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-14T02:04:28Z) - Simple Image-level Classification Improves Open-vocabulary Object
Detection [27.131298903486474]
Open-Vocabulary Object Detection (OVOD) は、検出モデルが訓練された与えられたベースカテゴリのセットを超えて、新しいオブジェクトを検出することを目的としている。
近年のOVOD法は,CLIPなどの画像レベルの事前学習型視覚言語モデル(VLM)を,地域レベルの知識蒸留,地域レベルの学習,地域レベルの事前学習といった領域レベルのオブジェクト検出タスクに適応させることに重点を置いている。
これらの手法は、地域視覚概念の認識において顕著な性能を示してきたが、VLMの強力なグローバルシーン理解能力を活用するには弱い。
論文 参考訳(メタデータ) (2023-12-16T13:06:15Z) - Enhancing Novel Object Detection via Cooperative Foundational Models [68.93124785575739]
本稿では,既存のクローズドセット検出器をオープンセット検出器に変換する新しい手法を提案する。
私たちは、新しいクラスに対して7.2$ textAP_50 のマージンで現在の最先端を越えています。
論文 参考訳(メタデータ) (2023-11-19T17:28:28Z) - Region-centric Image-Language Pretraining for Open-Vocabulary Detection [39.17829005627821]
領域中心の画像言語事前学習に基づく新しいオープン語彙検出手法を提案する。
プレトレーニング段階では,分類バックボーン上に検出器アーキテクチャを組み込む。
我々のアプローチは、創発的なオブジェクト・セマンティックな手がかりを学習するための、対照的な学習方法の単純かつ効果的な拡張である。
論文 参考訳(メタデータ) (2023-09-29T21:56:37Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - Open Vocabulary Object Detection with Proposal Mining and Prediction
Equalization [73.14053674836838]
Open-vocabulary Object Detection (OVD)は、学習語彙以外の新しいカテゴリのオブジェクトを検出するために、語彙サイズを拡大することを目的としている。
最近の研究は、事前訓練された視覚言語モデルにおける豊富な知識に頼っている。
本稿では,提案するマイニングと予測等化を備えた新しいOVDフレームワークMEDetを提案する。
論文 参考訳(メタデータ) (2022-06-22T14:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。