論文の概要: DeCo-DETR: Decoupled Cognition DETR for efficient Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2604.02753v1
- Date: Fri, 03 Apr 2026 05:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.338775
- Title: DeCo-DETR: Decoupled Cognition DETR for efficient Open-Vocabulary Object Detection
- Title(参考訳): DeCo-DETR:decoupled Cognition DETR for efficient Open-Vocabulary Object Detection
- Authors: Siheng Wang, Yanshu Li, Bohan Hu, Zhengdao Li, Haibo Zhan, Linshan Li, Weiming Liu, Ruizhi Qian, Guangxin Wu, Hao Zhang, Jifeng Shen, Piotr Koniusz, Zhengtao Yao, Junhao Dong, Qiang Sun,
- Abstract要約: Open-vocabulary Object Detection (OVOD)は、モデルが事前に定義されたカテゴリを超えてオブジェクトを認識できるようにする。
Deco-DETR(Deco-DeTR:Decoupled Cognition DETR)は、統合されたデカップリングパラダイムによってこれらの課題に対処するビジョン中心のフレームワークである。
本稿では,DeCo-DETRが競合ゼロショット検出性能を実現し,推論効率を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 34.77756071357519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary Object Detection (OVOD) enables models to recognize objects beyond predefined categories, but existing approaches remain limited in practical deployment. On the one hand, multimodal designs often incur substantial computational overhead due to their reliance on text encoders at inference time. On the other hand, tightly coupled training objectives introduce a trade-off between closed-set detection accuracy and open-world generalization. Thus, we propose Decoupled Cognition DETR (DeCo-DETR), a vision-centric framework that addresses these challenges through a unified decoupling paradigm. Instead of depending on online text encoding, DeCo-DETR constructs a hierarchical semantic prototype space from region-level descriptions generated by pre-trained LVLMs and aligned via CLIP, enabling efficient and reusable semantic representation. Building upon this representation, the framework further disentangles semantic reasoning from localization through a decoupled training strategy, which separates alignment and detection into parallel optimization streams. Extensive experiments on standard OVOD benchmarks demonstrate that DeCo-DETR achieves competitive zero-shot detection performance while significantly improving inference efficiency. These results highlight the effectiveness of decoupling semantic cognition from detection, offering a practical direction for scalable OVOD systems.
- Abstract(参考訳): Open-vocabulary Object Detection (OVOD) は、モデルが事前に定義されたカテゴリを超えてオブジェクトを認識できるようにするが、既存のアプローチは、実際のデプロイメントにおいて制限されている。
一方、マルチモーダル設計は、推論時にテキストエンコーダに依存するため、かなりの計算オーバーヘッドを引き起こすことが多い。
一方,密結合学習では,クローズドセット検出精度とオープンワールドの一般化との間にトレードオフが生じている。
そこで我々は,これらの課題に対処するビジョン中心のフレームワークであるDecoupled Cognition DETR(Deco-DETR)を提案する。
オンラインテキストエンコーディングに依存する代わりに、DeCo-DETRは、事前訓練されたLVLMが生成し、CLIPを介してアライメントされた地域レベルの記述から階層的なセマンティックプロトタイプ空間を構築し、効率的で再利用可能なセマンティック表現を可能にする。
この表現に基づいて、このフレームワークは、アライメントと検出を並列最適化ストリームに分離する分離されたトレーニング戦略を通じて、ローカライゼーションからセマンティック推論をさらに分離する。
標準OVODベンチマークの大規模な実験により、DeCo-DETRは競合するゼロショット検出性能を実現し、推論効率を著しく向上することを示した。
これらの結果は、意味認識を検出から切り離すことの有効性を強調し、スケーラブルなOVODシステムに実用的な方向を提供する。
関連論文リスト
- Heuristic-inspired Reasoning Priors Facilitate Data-Efficient Referring Object Detection [53.988759250627425]
HeROD(Heuristic-inspired ROD)は、明示的で解釈可能な空間的および意味的推論を注入する軽量でモデルに依存しないフレームワークである。
HeRODは、スカーセラベル体制において強い接地ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-03-25T10:33:22Z) - Beyond Hungarian: Match-Free Supervision for End-to-End Object Detection [6.786987355161583]
提案手法は,DETRを用いた新しい整合性学習手法である。
我々は、符号化された地下構造情報を用いて、クロスアテンション機構を通じてデコーダクエリを探索する。
実験により,提案手法は従来のマッチング処理をバイパスすることを示した。
論文 参考訳(メタデータ) (2026-03-09T15:44:23Z) - OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation [25.349183260609948]
我々は、最新のDEIMv2フレームワーク上に構築された、エンドツーエンドのDETRスタイルのオープンボキャブラリ検出器であるOV-DEIMを提案する。
推論速度を損なうことなく、Fixed APを改善した単純なクエリサプリメント戦略を導入する。
また、GridSyntheticは、複数のトレーニングサンプルを構造化画像グリッドに構成する、シンプルで効果的なデータ拡張戦略である。
論文 参考訳(メタデータ) (2026-03-07T03:59:47Z) - Open-Text Aerial Detection: A Unified Framework For Aerial Visual Grounding And Detection [19.500762008628254]
OVAD(Open-Vocabulary Aerial Detection)とRSVG(Remote Sensing Visual Grounding)は,航空シーン理解のための2つの重要なパラダイムとして登場した。
両パラダイムを結合型アーキテクチャにブリッジする最初の統一フレームワークであるOTA-Detを提案する。
論文 参考訳(メタデータ) (2026-02-08T05:29:01Z) - Cascading multi-agent anomaly detection in surveillance systems via vision-language models and embedding-based classification [0.0]
この研究は、補完パラダイムをコヒーレントで解釈可能なアーキテクチャに統一するカスケーディングマルチエージェントフレームワークを導入している。
初期モジュールは再構成ゲートフィルタリングとオブジェクトレベルの評価を行い、高レベルの推論エージェントは、意味的に曖昧な事象を解釈するために選択的に呼び出される。
このフレームワークは、早期出力効率、適応型マルチエージェント推論、説明可能な異常属性を組み合わせることで、従来の検出パイプラインを超えて進歩し、スケーラブルなインテリジェントなビジュアル監視のための再現可能でエネルギー効率の良い基盤を確立する。
論文 参考訳(メタデータ) (2026-01-08T11:31:47Z) - Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - Training-Free Class Purification for Open-Vocabulary Semantic Segmentation [72.87707878910896]
FreeCPは、セマンティックセグメンテーションのためのトレーニング不要のクラス浄化フレームワークである。
我々は,FreeCPの有効性を検証するため,8つのベンチマークで実験を行った。
その結果、プラグイン・アンド・プレイモジュールであるFreeCPは、他のOVSSメソッドと組み合わせることでセグメンテーション性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-08-01T11:55:12Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - ECO-TR: Efficient Correspondences Finding Via Coarse-to-Fine Refinement [80.94378602238432]
粗大な処理で対応性を見出すことにより、ECO-TR(Correspondence Efficient Transformer)と呼ばれる効率的な構造を提案する。
これを実現するために、複数の変圧器ブロックは段階的に連結され、予測された座標を徐々に洗練する。
種々のスパースタスクと密マッチングタスクの実験は、既存の最先端技術に対する効率性と有効性の両方において、我々の手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-09-25T13:05:33Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。