論文の概要: Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting
- arxiv url: http://arxiv.org/abs/2204.07841v3
- Date: Mon, 27 Mar 2023 15:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 03:43:00.764515
- Title: Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting
- Title(参考訳): メタラーニングに基づくクロスモーダルプロンプトによるマルチモーダルマイトショット物体検出
- Authors: Guangxing Han, Long Chen, Jiawei Ma, Shiyuan Huang, Rama Chellappa,
Shih-Fu Chang
- Abstract要約: 本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
- 参考スコア(独自算出の注目度): 77.69172089359606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study multi-modal few-shot object detection (FSOD) in this paper, using
both few-shot visual examples and class semantic information for detection,
which are complementary to each other by definition. Most of the previous works
on multi-modal FSOD are fine-tuning-based which are inefficient for online
applications. Moreover, these methods usually require expertise like class
names to extract class semantic embedding, which are hard to get for rare
classes. Our approach is motivated by the high-level conceptual similarity of
(metric-based) meta-learning and prompt-based learning to learn generalizable
few-shot and zero-shot object detection models respectively without
fine-tuning. Specifically, we combine the few-shot visual classifier and text
classifier learned via meta-learning and prompt-based learning respectively to
build the multi-modal classifier and detection models. In addition, to fully
exploit the pre-trained language models, we propose meta-learning-based
cross-modal prompting to generate soft prompts for novel classes present in
few-shot visual examples, which are then used to learn the text classifier.
Knowledge distillation is introduced to learn the soft prompt generator without
using human prior knowledge of class names, which may not be available for rare
classes. Our insight is that the few-shot support images naturally include
related context information and semantics of the class. We comprehensively
evaluate the proposed multi-modal FSOD models on multiple few-shot object
detection benchmarks, achieving promising results.
- Abstract(参考訳): 本稿では,複数モードの複数ショットオブジェクト検出(FSOD)について,複数ショットの視覚的例とクラス意味情報の両方を用いて検討する。
マルチモーダルfsodに関する以前の作業のほとんどは、オンラインアプリケーションでは非効率な微調整ベースである。
さらに、これらのメソッドはクラス名のような専門知識を必要として、クラスセマンティックな埋め込みを抽出する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性により、微調整なしで、一般化可能な少数ショットとゼロショットのオブジェクト検出モデルを学ぶことを目的としている。
具体的には,メタラーニングとプロンプトベースラーニングで学習したマイショット視覚分類器とテキスト分類器を組み合わせて,マルチモーダル分類器と検出モデルを構築した。
さらに,事前学習された言語モデルを完全に活用するために,メタラーニングに基づくクロスモーダルプロンプトを提案し,テキスト分類器の学習に使用する,数ショットの視覚例に現れる新しいクラスに対するソフトプロンプトを生成する。
希少なクラスでは利用できないクラス名に関する人間の事前知識を使わずに、ソフトプロンプトジェネレータを学習するために知識蒸留を導入する。
私たちの洞察では、少数ショットのサポートイメージは、クラスに関連するコンテキスト情報やセマンティクスを自然に含んでいます。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合評価し,有望な結果を得た。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - On the Limits of Multi-modal Meta-Learning with Auxiliary Task Modulation Using Conditional Batch Normalization [35.39571632348391]
少ないショット学習は、新しいタスクに対処できる表現を学習することを目的としている。
近年の研究では、クロスモーダル学習は、数発の分類において表現を改善することが示されている。
言語は豊かなモダリティであり、視覚的な学習を導くのに使うことができる。
論文 参考訳(メタデータ) (2024-05-29T04:29:12Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Meta Learning to Bridge Vision and Language Models for Multimodal
Few-Shot Learning [38.37682598345653]
視覚モデルと言語モデルとのギャップを埋めるために,マルチモーダルなメタ学習手法を導入する。
我々は,凍結した大規模視覚と言語モデルを効率的にブリッジするためにメタラーナーとして機能するメタマッパーネットワークを定義する。
我々は,最近提案されたマルチモーダル・スショット・ベンチマークに対するアプローチを評価し,新しい視覚概念を単語に結合する速度を計測した。
論文 参考訳(メタデータ) (2023-02-28T17:46:18Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。