論文の概要: WeDetect: Fast Open-Vocabulary Object Detection as Retrieval
- arxiv url: http://arxiv.org/abs/2512.12309v1
- Date: Sat, 13 Dec 2025 12:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.213299
- Title: WeDetect: Fast Open-Vocabulary Object Detection as Retrieval
- Title(参考訳): WeDetect: 検索として高速なオープン語彙オブジェクト検出
- Authors: Shenghao Fu, Yukun Su, Fengyun Rao, Jing Lyu, Xiaohua Xie, Wei-Shi Zheng,
- Abstract要約: Open-vocabularyオブジェクト検出は、テキストプロンプトを通じて任意のクラスを検出することを目的としている。
クロスモーダル融合層(ノンフュージョン)を持たない手法は、認識を検索問題として扱うことにより、より高速な推論を提供する。
WeDetectという名前のモデルファミリを開発し、推論効率の高い15ベンチマークで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 74.39703419628829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary object detection aims to detect arbitrary classes via text prompts. Methods without cross-modal fusion layers (non-fusion) offer faster inference by treating recognition as a retrieval problem, \ie, matching regions to text queries in a shared embedding space. In this work, we fully explore this retrieval philosophy and demonstrate its unique advantages in efficiency and versatility through a model family named WeDetect: (1) State-of-the-art performance. WeDetect is a real-time detector with a dual-tower architecture. We show that, with well-curated data and full training, the non-fusion WeDetect surpasses other fusion models and establishes a strong open-vocabulary foundation. (2) Fast backtrack of historical data. WeDetect-Uni is a universal proposal generator based on WeDetect. We freeze the entire detector and only finetune an objectness prompt to retrieve generic object proposals across categories. Importantly, the proposal embeddings are class-specific and enable a new application, object retrieval, supporting retrieval objects in historical data. (3) Integration with LMMs for referring expression comprehension (REC). We further propose WeDetect-Ref, an LMM-based object classifier to handle complex referring expressions, which retrieves target objects from the proposal list extracted by WeDetect-Uni. It discards next-token prediction and classifies objects in a single forward pass. Together, the WeDetect family unifies detection, proposal generation, object retrieval, and REC under a coherent retrieval framework, achieving state-of-the-art performance across 15 benchmarks with high inference efficiency.
- Abstract(参考訳): Open-vocabularyオブジェクト検出は、テキストプロンプトを通じて任意のクラスを検出することを目的としている。
クロスモーダルな融合層(non-fusion)を持たないメソッドは、検索問題として認識を扱い、共有埋め込み空間におけるテキストクエリに領域をマッチングすることで、より高速な推論を提供する。
本研究は,WeDetectと呼ばれるモデルファミリを用いて,この検索哲学を十分に探求し,その効率性と汎用性に特有の優位性を実証する。
WeDetectは、デュアルトウワーアーキテクチャを備えたリアルタイム検出器である。
精度の高いデータと完全なトレーニングにより、非融合WeDetectは他の融合モデルを超え、強力なオープン語彙基盤を確立していることを示す。
2) 履歴データの高速バックトラック。
WeDetect-UniはWeDetectをベースにしたユニバーサルプロポーザルジェネレータである。
検出器全体を凍結し、オブジェクト性のみを微調整し、カテゴリ間でジェネリックオブジェクトの提案を検索する。
重要なことは、提案の埋め込みはクラス固有であり、新しいアプリケーション、オブジェクト検索を可能にし、過去のデータにおける検索オブジェクトをサポートすることである。
(3)表現理解(REC)のためのLMMの統合。
さらに、複雑な参照式を扱うLMMベースのオブジェクト分類器WeDetect-Refを提案し、WeDetect-Uniによって抽出された提案リストから対象オブジェクトを検索する。
これは次のトーケン予測を破棄し、単一のフォワードパスでオブジェクトを分類する。
WeDetectファミリは、コヒーレント検索フレームワークの下で検出、提案生成、オブジェクト検索、RECを統合し、推論効率の高い15ベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- Generative Region-Language Pretraining for Open-Ended Object Detection [55.42484781608621]
我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。
本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2024-03-15T10:52:39Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding [8.448399308205266]
本研究では,動的語彙生成に基づく評価プロトコルを導入し,モデルがオブジェクトに対して正確な粒度記述を検出し,識別し,割り当てるかどうかを検証する。
提案プロトコルを用いて,最先端のオープンボキャブラリオブジェクト検出器を複数評価することにより,研究をさらに強化する。
論文 参考訳(メタデータ) (2023-11-29T10:40:52Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - FindIt: Generalized Localization with Natural Language Queries [43.07139534653485]
FindItは、さまざまな視覚的グラウンドとローカライゼーションタスクを統合する、シンプルで汎用的なフレームワークである。
我々のアーキテクチャの鍵は、異なるローカライゼーション要求を統一する効率的なマルチスケール融合モジュールである。
エンドツーエンドのトレーニング可能なフレームワークは、幅広い参照表現、ローカライゼーション、検出クエリに柔軟かつ正確に対応します。
論文 参考訳(メタデータ) (2022-03-31T17:59:30Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。