論文の概要: Multi-modal Queried Object Detection in the Wild
- arxiv url: http://arxiv.org/abs/2305.18980v2
- Date: Sun, 8 Oct 2023 11:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 11:43:10.706867
- Title: Multi-modal Queried Object Detection in the Wild
- Title(参考訳): 野生動物におけるマルチモーダル問合せ対象検出
- Authors: Yifan Xu, Mengdan Zhang, Chaoyou Fu, Peixian Chen, Xiaoshan Yang, Ke
Li, Changsheng Xu
- Abstract要約: MQ-Detは、現実世界のオブジェクト検出のための効率的なアーキテクチャと事前学習戦略設計である。
既存の言語クエリのみの検出器に視覚クエリを組み込む。
MQ-Detのシンプルで効果的なアーキテクチャとトレーニング戦略設計は、ほとんどの言語でクエリされたオブジェクト検出器と互換性がある。
- 参考スコア(独自算出の注目度): 72.16067634379226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MQ-Det, an efficient architecture and pre-training strategy
design to utilize both textual description with open-set generalization and
visual exemplars with rich description granularity as category queries, namely,
Multi-modal Queried object Detection, for real-world detection with both
open-vocabulary categories and various granularity. MQ-Det incorporates vision
queries into existing well-established language-queried-only detectors. A
plug-and-play gated class-scalable perceiver module upon the frozen detector is
proposed to augment category text with class-wise visual information. To
address the learning inertia problem brought by the frozen detector, a vision
conditioned masked language prediction strategy is proposed. MQ-Det's simple
yet effective architecture and training strategy design is compatible with most
language-queried object detectors, thus yielding versatile applications.
Experimental results demonstrate that multi-modal queries largely boost
open-world detection. For instance, MQ-Det significantly improves the
state-of-the-art open-set detector GLIP by +7.8% AP on the LVIS benchmark via
multi-modal queries without any downstream finetuning, and averagely +6.3% AP
on 13 few-shot downstream tasks, with merely additional 3% modulating time
required by GLIP. Code is available at https://github.com/YifanXu74/MQ-Det.
- Abstract(参考訳): オープンセットの一般化によるテキスト記述と,豊富な記述の粒度をカテゴリクエリとして活用するための,効率的なアーキテクチャと事前学習戦略設計であるMQ-Detを導入する。
MQ-Detは、既存の言語クエリ専用検出器にビジョンクエリを組み込む。
凍った検出器上にゲート型クラススケーブルパーシーバーモジュールを装着し,カテゴリテキストをクラス別視覚情報で拡張する。
凍結検出器がもたらした学習慣性問題に対処するために,視覚条件付きマスキング言語予測戦略を提案する。
MQ-Detのシンプルで効果的なアーキテクチャとトレーニング戦略は、ほとんどの言語でクエリされたオブジェクト検出器と互換性があるため、汎用的なアプリケーションが得られる。
実験の結果,マルチモーダルクエリはオープンワールド検出に大きく寄与することがわかった。
例えば、MQ-Detは、LVISベンチマークにおける最先端のオープンセット検出器GLIPを、ダウンストリームの微調整無しにマルチモーダルクエリによって+7.8%AP改善し、平均+6.3%APは13のショットダウンストリームタスクで+6.3%APとなり、GLIPが要求する3%の調整時間しか必要としない。
コードはhttps://github.com/yifanxu74/mq-detで入手できる。
関連論文リスト
- A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction [63.668635390907575]
既存の手法は、視覚言語モデル(VLM)の頑健なオープン語彙認識機能を活用することにより、オープン語彙オブジェクト検出を強化している。
本稿では,視覚的概念間の関係を生かしたLanguage Model Instruction(LaMI)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-16T02:58:33Z) - An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。
MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。
本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文 参考訳(メタデータ) (2024-07-05T02:01:49Z) - Localizing Events in Videos with Multimodal Queries [61.20556229245365]
セマンティッククエリに基づくビデオ内のイベントのローカライズは、ビデオ理解における重要なタスクである。
マルチモーダルクエリでビデオ中のイベントをローカライズするための新しいベンチマークであるICQを紹介する。
疑似MQs戦略における3つのマルチモーダルクエリ適応法と新しいサロゲートファインタニングを提案する。
論文 参考訳(メタデータ) (2024-06-14T14:35:58Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。