論文の概要: Multi-Modal Classifiers for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2306.05493v1
- Date: Thu, 8 Jun 2023 18:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 15:57:13.507803
- Title: Multi-Modal Classifiers for Open-Vocabulary Object Detection
- Title(参考訳): 開語彙オブジェクト検出のためのマルチモーダル分類器
- Authors: Prannay Kaul, Weidi Xie, Andrew Zisserman
- Abstract要約: 本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
- 参考スコア(独自算出の注目度): 104.77331131447541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is open-vocabulary object detection (OVOD)
$\unicode{x2013}$ building a model that can detect objects beyond the set of
categories seen at training, thus enabling the user to specify categories of
interest at inference without the need for model retraining. We adopt a
standard two-stage object detector architecture, and explore three ways for
specifying novel categories: via language descriptions, via image exemplars, or
via a combination of the two. We make three contributions: first, we prompt a
large language model (LLM) to generate informative language descriptions for
object classes, and construct powerful text-based classifiers; second, we
employ a visual aggregator on image exemplars that can ingest any number of
images as input, forming vision-based classifiers; and third, we provide a
simple method to fuse information from language descriptions and image
exemplars, yielding a multi-modal classifier. When evaluating on the
challenging LVIS open-vocabulary benchmark we demonstrate that: (i) our
text-based classifiers outperform all previous OVOD works; (ii) our
vision-based classifiers perform as well as text-based classifiers in prior
work; (iii) using multi-modal classifiers perform better than either modality
alone; and finally, (iv) our text-based and multi-modal classifiers yield
better performance than a fully-supervised detector.
- Abstract(参考訳): この論文の目標は、open-vocabulary object detection (ovod) $\unicode{x2013}$ トレーニング中に見られるカテゴリのセットを超えてオブジェクトを検出できるモデルを構築することである。
標準の2段階オブジェクト検出アーキテクチャを採用し、言語記述、画像例、および2つの組み合わせによる3つの新しいカテゴリを特定する方法を模索する。
まず、大言語モデル(LLM)にオブジェクトクラスに対する情報的言語記述を生成し、強力なテキストベースの分類器を構築するよう促し、次に、画像の任意の画像を入力として取り込み、視覚ベースの分類器を形成するビジュアルアグリゲータを使用し、第3に、言語記述や画像の例から情報を融合し、マルチモーダル分類器を生成するシンプルな方法を提案する。
挑戦的なLVISオープン語彙ベンチマークを評価する際に、次のように示す。
i) テキストベースの分類器は,従来のOVODのすべての作業より優れています。
(二)従来の作業において、視覚に基づく分類器とテキストベースの分類器を併用する。
(iii)マルチモーダル分類器の使用は、モダリティのみよりも優れており、最後に、
(iv) テキストベースおよびマルチモーダル分類器は, 完全教師付き検出器よりも優れた性能を示す。
関連論文リスト
- OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - On the Limits of Multi-modal Meta-Learning with Auxiliary Task Modulation Using Conditional Batch Normalization [35.39571632348391]
少ないショット学習は、新しいタスクに対処できる表現を学習することを目的としている。
近年の研究では、クロスモーダル学習は、数発の分類において表現を改善することが示されている。
言語は豊かなモダリティであり、視覚的な学習を導くのに使うことができる。
論文 参考訳(メタデータ) (2024-05-29T04:29:12Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。