論文の概要: MQADet: A Plug-and-Play Paradigm for Enhancing Open-Vocabulary Object Detection via Multimodal Question Answering
- arxiv url: http://arxiv.org/abs/2502.16486v1
- Date: Sun, 23 Feb 2025 07:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:18.791430
- Title: MQADet: A Plug-and-Play Paradigm for Enhancing Open-Vocabulary Object Detection via Multimodal Question Answering
- Title(参考訳): MQADet:マルチモーダル質問回答によるオープン語彙オブジェクト検出を支援するプラグインとプレイのパラダイム
- Authors: Caixiong Li, Xiongwei Zhao, Jinhang Zhang, Xing Zhang, Zhou Wu,
- Abstract要約: 既存のオープンボキャブラリ検出器は、複雑な視覚・テクスチャのミスアライメントと長い尾のカテゴリーの不均衡によって制限される。
textbfMQADetは、既存のオープン語彙検出装置を拡張するための普遍的なパラダイムである。
MQADetは、事前訓練されたオブジェクト検出器とシームレスに統合されるプラグイン・アンド・プレイのソリューションとして機能する。
- 参考スコア(独自算出の注目度): 5.332289905373051
- License:
- Abstract: Open-vocabulary detection (OVD) is a challenging task to detect and classify objects from an unrestricted set of categories, including those unseen during training. Existing open-vocabulary detectors are limited by complex visual-textual misalignment and long-tailed category imbalances, leading to suboptimal performance in challenging scenarios. To address these limitations, we introduce \textbf{MQADet}, a universal paradigm for enhancing existing open-vocabulary detectors by leveraging the cross-modal reasoning capabilities of multimodal large language models (MLLMs). MQADet functions as a plug-and-play solution that integrates seamlessly with pre-trained object detectors without substantial additional training costs. Specifically, we design a novel three-stage Multimodal Question Answering (MQA) pipeline to guide the MLLMs to precisely localize complex textual and visual targets while effectively enhancing the focus of existing object detectors on relevant objects. To validate our approach, we present a new benchmark for evaluating our paradigm on four challenging open-vocabulary datasets, employing three state-of-the-art object detectors as baselines. Experimental results demonstrate that our proposed paradigm significantly improves the performance of existing detectors, particularly in unseen complex categories, across diverse and challenging scenarios. To facilitate future research, we will publicly release our code.
- Abstract(参考訳): オープン語彙検出(OVD)は、訓練中に目に見えないものを含む、制限のないカテゴリのオブジェクトを検出し、分類する難しいタスクである。
既存のオープンボキャブラリ検出器は、複雑な視覚的・テクスチャ的ミスアライメントと長い尾のカテゴリー不均衡によって制限され、挑戦的なシナリオでは準最適性能をもたらす。
これらの制約に対処するため,マルチモーダル大言語モデル (MLLM) のクロスモーダル推論機能を活用することで,既存のオープン語彙検出機能を強化するための普遍パラダイムである \textbf{MQADet} を導入する。
MQADetは、事前トレーニングされたオブジェクト検出器とシームレスに統合するプラグイン・アンド・プレイソリューションとして機能する。
具体的には、3段階のMultimodal Question Answering (MQA) パイプラインを設計し、MLLMを誘導し、複雑なテキストや視覚的ターゲットを正確にローカライズし、既存のオブジェクト検出器の焦点を関連オブジェクトに効果的に拡張する。
提案手法の有効性を検証するために,3つの最先端オブジェクト検出器をベースラインとして,挑戦的な4つのオープン語彙データセットのパラダイムを評価するための新しいベンチマークを提案する。
実験結果から,提案手法は既存検出器,特に未知の複雑なカテゴリにおいて,多様かつ困難なシナリオにおいて,性能を著しく向上することが示された。
今後の研究を促進するため、コードを公開します。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Multi-modal Queried Object Detection in the Wild [72.16067634379226]
MQ-Detは、現実世界のオブジェクト検出のための効率的なアーキテクチャと事前学習戦略設計である。
既存の言語クエリのみの検出器に視覚クエリを組み込む。
MQ-Detのシンプルで効果的なアーキテクチャとトレーニング戦略設計は、ほとんどの言語でクエリされたオブジェクト検出器と互換性がある。
論文 参考訳(メタデータ) (2023-05-30T12:24:38Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。
本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T07:03:30Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Discovery-and-Selection: Towards Optimal Multiple Instance Learning for
Weakly Supervised Object Detection [86.86602297364826]
複数インスタンス学習(DS-MIL)と融合した発見・選択手法を提案する。
我々の提案するDS-MILアプローチは,最先端の性能を報告しながら,ベースラインを一貫して改善することができる。
論文 参考訳(メタデータ) (2021-10-18T07:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。