論文の概要: DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM
- arxiv url: http://arxiv.org/abs/2403.12488v3
- Date: Tue, 23 Jul 2024 07:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 22:43:37.184381
- Title: DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM
- Title(参考訳): DetToolChain:MLLMのアンリーシュ検出機能のための新しいプロンプトパラダイム
- Authors: Yixuan Wu, Yizhou Wang, Shixiang Tang, Wenhao Wu, Tong He, Wanli Ouyang, Philip Torr, Jian Wu,
- Abstract要約: DetToolChainはマルチモーダル大言語モデル(MLLM)のゼロショットオブジェクト検出能力を解き放つ新しいパラダイムである。
提案手法は,高精度検出にヒントを得た検出プロンプトツールキットと,これらのプロンプトを実装するための新しいChain-of-Thoughtから構成される。
DetToolChainを用いたGPT-4Vは,オープン語彙検出のための新しいクラスセットにおいて,最先端のオブジェクト検出器を+21.5%AP50で改善することを示す。
- 参考スコア(独自算出の注目度): 81.75988648572347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DetToolChain, a novel prompting paradigm, to unleash the zero-shot object detection ability of multimodal large language models (MLLMs), such as GPT-4V and Gemini. Our approach consists of a detection prompting toolkit inspired by high-precision detection priors and a new Chain-of-Thought to implement these prompts. Specifically, the prompts in the toolkit are designed to guide the MLLM to focus on regional information (e.g., zooming in), read coordinates according to measure standards (e.g., overlaying rulers and compasses), and infer from the contextual information (e.g., overlaying scene graphs). Building upon these tools, the new detection chain-of-thought can automatically decompose the task into simple subtasks, diagnose the predictions, and plan for progressive box refinements. The effectiveness of our framework is demonstrated across a spectrum of detection tasks, especially hard cases. Compared to existing state-of-the-art methods, GPT-4V with our DetToolChain improves state-of-the-art object detectors by +21.5% AP50 on MS COCO Novel class set for open-vocabulary detection, +24.23% Acc on RefCOCO val set for zero-shot referring expression comprehension, +14.5% AP on D-cube describe object detection FULL setting.
- Abstract(参考訳): 本稿では,GPT-4V や Gemini などのマルチモーダル大規模言語モデル (MLLM) のゼロショットオブジェクト検出能力を解き放つために,新しいプロンプトパラダイムである DetToolChain を提案する。
提案手法は,高精度検出にヒントを得た検出プロンプトツールキットと,これらのプロンプトを実装するための新しいChain-of-Thoughtから構成される。
特に、ツールキットのプロンプトは、MLLMが地域情報(例えば、ズームイン)に集中するように誘導し、測定基準(例えば、オーバレイの定規とコンパス)に従って座標を読み、コンテキスト情報(例えば、シーングラフのオーバーレイ)から推測するように設計されている。
これらのツールに基づいて、新しい検出チェーンはタスクを単純なサブタスクに自動的に分解し、予測を診断し、プログレッシブボックスの改良計画を立てる。
本フレームワークの有効性は,検出タスク,特にハードケースの幅広い範囲で実証されている。
既存の最先端の手法と比較して、GPT-4VとDetToolChainは、MS COCO上の最先端オブジェクト検出器を+21.5%改善し、オープン語彙検出のための新しいクラスセット +24.23% Acc on RefCOCO val set for zero-shot Reference Expression comprehension, +14.5% AP on D-cube describe object detection FULL setting。
関連論文リスト
- Efficient Meta-Learning Enabled Lightweight Multiscale Few-Shot Object Detection in Remote Sensing Images [15.12889076965307]
YOLOv7ワンステージ検出器は、新しいメタラーニングトレーニングフレームワークが組み込まれている。
この変換により、検出器はFSODのタスクに十分対応できると同時に、その固有の軽量化の利点を活かすことができる。
提案検出器の有効性を検証するため, 現状の検出器と性能比較を行った。
論文 参考訳(メタデータ) (2024-04-29T04:56:52Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Enhancing Novel Object Detection via Cooperative Foundational Models [75.30243629533277]
本稿では,既存のクローズドセット検出器をオープンセット検出器に変換する新しい手法を提案する。
私たちは、新しいクラスに対して7.2$ textAP_50 のマージンで現在の最先端を越えています。
論文 参考訳(メタデータ) (2023-11-19T17:28:28Z) - F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language
Models [54.21757555804668]
F-VLMは,凍結視覚と言語モデルに基づくシンプルなオープン語彙オブジェクト検出手法である。
F-VLMは、知識蒸留や検出調整事前訓練の必要性を排除し、現在の多段階訓練パイプラインを単純化する。
論文 参考訳(メタデータ) (2022-09-30T17:59:52Z) - Incremental-DETR: Incremental Few-Shot Object Detection via
Self-Supervised Learning [60.64535309016623]
本稿では,DeTRオブジェクト検出器上での微調整および自己教師型学習によるインクリメンタル・デクリメンタル・デクリメンタル・デクリメンタル・オブジェクト検出を提案する。
まず,DeTRのクラス固有のコンポーネントを自己監督で微調整する。
さらに,DeTRのクラス固有のコンポーネントに知識蒸留を施した数発の微調整戦略を導入し,破滅的な忘れを伴わずに新しいクラスを検出するネットワークを奨励する。
論文 参考訳(メタデータ) (2022-05-09T05:08:08Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z) - Slicing Aided Hyper Inference and Fine-tuning for Small Object Detection [2.578242050187029]
Slicing Aided Hyper Inference (SAHI) は、小型物体検出のための汎用スライシング支援推論と微調整パイプラインを提供する。
提案手法は Detectron2, MMDetection, YOLOv5 モデルと統合されている。
論文 参考訳(メタデータ) (2022-02-14T18:49:12Z) - Points as Queries: Weakly Semi-supervised Object Detection by Points [25.286468630229592]
ポイントエンコーダを追加してDETRを拡張する新しい検出器、Point DETRを紹介します。
特に、COCOから20%のラベル付きデータを使用する場合、検知器は33.3 APという有望な性能を達成する。
論文 参考訳(メタデータ) (2021-04-15T13:08:25Z) - Detection in Crowded Scenes: One Proposal, Multiple Predictions [79.28850977968833]
混み合ったシーンにおける高過度なインスタンスを検出することを目的とした,提案手法によるオブジェクト検出手法を提案する。
このアプローチの鍵は、各提案が以前の提案ベースのフレームワークの1つではなく、関連したインスタンスのセットを予測できるようにすることです。
我々の検出器は、CrowdHumanデータセットの挑戦に対して4.9%のAPゲインを得ることができ、CityPersonsデータセットでは1.0%$textMR-2$の改善がある。
論文 参考訳(メタデータ) (2020-03-20T09:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。