論文の概要: Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting
- arxiv url: http://arxiv.org/abs/2204.07841v3
- Date: Mon, 27 Mar 2023 15:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 03:43:00.764515
- Title: Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting
- Title(参考訳): メタラーニングに基づくクロスモーダルプロンプトによるマルチモーダルマイトショット物体検出
- Authors: Guangxing Han, Long Chen, Jiawei Ma, Shiyuan Huang, Rama Chellappa,
Shih-Fu Chang
- Abstract要約: 本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
- 参考スコア(独自算出の注目度): 77.69172089359606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study multi-modal few-shot object detection (FSOD) in this paper, using
both few-shot visual examples and class semantic information for detection,
which are complementary to each other by definition. Most of the previous works
on multi-modal FSOD are fine-tuning-based which are inefficient for online
applications. Moreover, these methods usually require expertise like class
names to extract class semantic embedding, which are hard to get for rare
classes. Our approach is motivated by the high-level conceptual similarity of
(metric-based) meta-learning and prompt-based learning to learn generalizable
few-shot and zero-shot object detection models respectively without
fine-tuning. Specifically, we combine the few-shot visual classifier and text
classifier learned via meta-learning and prompt-based learning respectively to
build the multi-modal classifier and detection models. In addition, to fully
exploit the pre-trained language models, we propose meta-learning-based
cross-modal prompting to generate soft prompts for novel classes present in
few-shot visual examples, which are then used to learn the text classifier.
Knowledge distillation is introduced to learn the soft prompt generator without
using human prior knowledge of class names, which may not be available for rare
classes. Our insight is that the few-shot support images naturally include
related context information and semantics of the class. We comprehensively
evaluate the proposed multi-modal FSOD models on multiple few-shot object
detection benchmarks, achieving promising results.
- Abstract(参考訳): 本稿では,複数モードの複数ショットオブジェクト検出(FSOD)について,複数ショットの視覚的例とクラス意味情報の両方を用いて検討する。
マルチモーダルfsodに関する以前の作業のほとんどは、オンラインアプリケーションでは非効率な微調整ベースである。
さらに、これらのメソッドはクラス名のような専門知識を必要として、クラスセマンティックな埋め込みを抽出する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性により、微調整なしで、一般化可能な少数ショットとゼロショットのオブジェクト検出モデルを学ぶことを目的としている。
具体的には,メタラーニングとプロンプトベースラーニングで学習したマイショット視覚分類器とテキスト分類器を組み合わせて,マルチモーダル分類器と検出モデルを構築した。
さらに,事前学習された言語モデルを完全に活用するために,メタラーニングに基づくクロスモーダルプロンプトを提案し,テキスト分類器の学習に使用する,数ショットの視覚例に現れる新しいクラスに対するソフトプロンプトを生成する。
希少なクラスでは利用できないクラス名に関する人間の事前知識を使わずに、ソフトプロンプトジェネレータを学習するために知識蒸留を導入する。
私たちの洞察では、少数ショットのサポートイメージは、クラスに関連するコンテキスト情報やセマンティクスを自然に含んでいます。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合評価し,有望な結果を得た。
関連論文リスト
- Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Meta Learning to Bridge Vision and Language Models for Multimodal
Few-Shot Learning [38.37682598345653]
視覚モデルと言語モデルとのギャップを埋めるために,マルチモーダルなメタ学習手法を導入する。
我々は,凍結した大規模視覚と言語モデルを効率的にブリッジするためにメタラーナーとして機能するメタマッパーネットワークを定義する。
我々は,最近提案されたマルチモーダル・スショット・ベンチマークに対するアプローチを評価し,新しい視覚概念を単語に結合する速度を計測した。
論文 参考訳(メタデータ) (2023-02-28T17:46:18Z) - Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with
Multimodal Models [61.97890177840515]
人間はクロスモーダル情報を使って、新しい概念を効率的に学習する。
異なるモダリティにまたがる少数ショット例から学習する,シンプルなクロスモーダル適応手法を提案する。
論文 参考訳(メタデータ) (2023-01-16T05:40:42Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Decomposed Meta-Learning for Few-Shot Named Entity Recognition [32.515795881027074]
NER (Few-shot named entity recognition) システムは、いくつかのラベル付き例に基づいて、新しい名前付きエンティティを認識することを目的としている。
本稿ではメタラーニングを用いた数発のスパン検出と数発のエンティティタイピングに取り組むメタラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-04-12T12:46:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。