論文の概要: CP-DETR: Concept Prompt Guide DETR Toward Stronger Universal Object Detection
- arxiv url: http://arxiv.org/abs/2412.09799v1
- Date: Fri, 13 Dec 2024 02:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:04:00.841969
- Title: CP-DETR: Concept Prompt Guide DETR Toward Stronger Universal Object Detection
- Title(参考訳): CP-DETR: より強力なユニバーサルオブジェクト検出に向けたコンセプトプロンプトガイドDETR
- Authors: Qibo Chen, Weizhong Jin, Jianyue Ge, Mengdi Liu, Yuchao Yan, Jian Jiang, Li Yu, Xuanjiang Guo, Shuchang Li, Jianzhong Chen,
- Abstract要約: ほぼ全てのシナリオにおいて競合するCP-DETRと呼ばれる強力な普遍的検出基盤モデルを提案する。
具体的には、プロンプトと視覚間の情報相互作用を強化する効率的なプロンプト視覚ハイブリッドエンコーダを設計する。
テキストプロンプトに加えて、視覚プロンプトと最適化プロンプトという2つの実用的な概念プロンプト生成手法を設計した。
- 参考スコア(独自算出の注目度): 6.017022924697519
- License:
- Abstract: Recent research on universal object detection aims to introduce language in a SoTA closed-set detector and then generalize the open-set concepts by constructing large-scale (text-region) datasets for training. However, these methods face two main challenges: (i) how to efficiently use the prior information in the prompts to genericise objects and (ii) how to reduce alignment bias in the downstream tasks, both leading to sub-optimal performance in some scenarios beyond pre-training. To address these challenges, we propose a strong universal detection foundation model called CP-DETR, which is competitive in almost all scenarios, with only one pre-training weight. Specifically, we design an efficient prompt visual hybrid encoder that enhances the information interaction between prompt and visual through scale-by-scale and multi-scale fusion modules. Then, the hybrid encoder is facilitated to fully utilize the prompted information by prompt multi-label loss and auxiliary detection head. In addition to text prompts, we have designed two practical concept prompt generation methods, visual prompt and optimized prompt, to extract abstract concepts through concrete visual examples and stably reduce alignment bias in downstream tasks. With these effective designs, CP-DETR demonstrates superior universal detection performance in a broad spectrum of scenarios. For example, our Swin-T backbone model achieves 47.6 zero-shot AP on LVIS, and the Swin-L backbone model achieves 32.2 zero-shot AP on ODinW35. Furthermore, our visual prompt generation method achieves 68.4 AP on COCO val by interactive detection, and the optimized prompt achieves 73.1 fully-shot AP on ODinW13.
- Abstract(参考訳): 汎用オブジェクト検出の最近の研究は、SoTAクローズドセット検出器で言語を導入し、訓練用に大規模(テキスト領域)データセットを構築してオープンセットの概念を一般化することを目的としている。
しかし、これらの手法は2つの大きな課題に直面している。
i) オブジェクトをジェネリックするプロンプトにおいて、事前情報を効率的に利用する方法
(ii) 下流タスクにおけるアライメントバイアスを低減する方法。
これらの課題に対処するために、CP-DETRと呼ばれる強力な普遍的検出基盤モデルを提案する。
具体的には,高速なプロンプト・ビジュアル・ハイブリッド・エンコーダを設計し,インプロンプトと視覚の相互作用をスケール・バイ・スケール,マルチスケールの融合モジュールによって促進する。
そして、このハイブリッドエンコーダは、多ラベル損失と補助検出ヘッドを早めに促される情報を完全に活用することを容易にする。
我々は,テキストプロンプトに加えて,視覚的プロンプトと最適化的プロンプトという2つの実用的な概念的プロンプト生成手法を設計し,具体的な視覚的例を通して抽象的な概念を抽出し,下流タスクのアライメントバイアスを安定的に低減した。
これらの効率的な設計により、CP-DETRは幅広いシナリオにおいて優れた普遍的検出性能を示す。
例えば、我々のSwin-TのバックボーンモデルはLVISで47.6のゼロショットAPを獲得し、Swin-LのバックボーンモデルはODinW35で32.2のゼロショットAPを達成する。
さらに,視覚的プロンプト生成手法は,対話的検出によりCOCO val上で68.4 APを実現し,最適化されたプロンプトはODinW13上で73.1APを達成する。
関連論文リスト
- DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - CLIPping the Deception: Adapting Vision-Language Models for Universal
Deepfake Detection [3.849401956130233]
広汎な深度検出のための最近の適応手法と組み合わせた事前学習型視覚言語モデル(VLM)の有効性について検討する。
ディープフェイク検出にCLIPを適用するために、単一のデータセット(ProGAN)のみを使用します。
シンプルで軽量なPrompt Tuningベースの適応戦略は、以前のSOTAアプローチよりも5.01% mAPと6.61%の精度で優れている。
論文 参考訳(メタデータ) (2024-02-20T11:26:42Z) - PETDet: Proposal Enhancement for Two-Stage Fine-Grained Object Detection [26.843891792018447]
PETDet (Proposal Enhancement for Two-stage fine-fine object detection) は, 2段階FGOD法において, サブタスクをよりよく扱うために提案される。
動的ラベル割り当てと注意に基づく分解により, アンカーフリー品質指向提案ネットワーク(QOPN)を提案する。
A novel Adaptive Recognition Loss (ARL)は、R-CNNの責任者が高品質な提案に焦点を合わせるためのガイダンスを提供する。
論文 参考訳(メタデータ) (2023-12-16T18:04:56Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Towards Precise Weakly Supervised Object Detection via Interactive
Contrastive Learning of Context Information [10.064363395935478]
弱教師付き物体検出(WSOD)は、画像レベルのタグのみを用いて正確な物体検出を学習することを目的としている。
本稿では、JLWSODと呼ばれる対話型エンドツーエンドWSDOフレームワークを2つの革新と共に提案する。
論文 参考訳(メタデータ) (2023-04-27T11:54:41Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。
既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。
本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文 参考訳(メタデータ) (2020-11-30T10:21:32Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。