論文の概要: Multimodal Few-Shot Object Detection with Meta-Learning Based
Cross-Modal Prompting
- arxiv url: http://arxiv.org/abs/2204.07841v1
- Date: Sat, 16 Apr 2022 16:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 14:02:10.580167
- Title: Multimodal Few-Shot Object Detection with Meta-Learning Based
Cross-Modal Prompting
- Title(参考訳): メタラーニングに基づくクロスモーダルプロンプティングによるマルチモーダルショットオブジェクト検出
- Authors: Guangxing Han, Jiawei Ma, Shiyuan Huang, Long Chen, Rama Chellappa,
Shih-Fu Chang
- Abstract要約: マルチモーダルな少数ショットオブジェクト検出法について,少数ショット視覚例とクラス意味情報の両方を用いて検討した。
我々のモデルは、トークンレベルと特徴レベルの両方で視覚情報と意味情報を効率的に融合させることができる。
- 参考スコア(独自算出の注目度): 77.69172089359606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study multimodal few-shot object detection (FSOD) in this paper, using
both few-shot visual examples and class semantic information for detection.
Most of previous works focus on either few-shot or zero-shot object detection,
ignoring the complementarity of visual and semantic information. We first show
that meta-learning and prompt-based learning, the most commonly-used methods
for few-shot learning and zero-shot transferring from pre-trained
vision-language models to downstream tasks, are conceptually similar. They both
reformulate the objective of downstream tasks the same as the pre-training
tasks, and mostly without tuning the parameters of pre-trained models. Based on
this observation, we propose to combine meta-learning with prompt-based
learning for multimodal FSOD without fine-tuning, by learning transferable
class-agnostic multimodal FSOD models over many-shot base classes.
Specifically, to better exploit the pre-trained vision-language models, the
meta-learning based cross-modal prompting is proposed to generate soft prompts
and further used to extract the semantic prototype, conditioned on the few-shot
visual examples. Then, the extracted semantic prototype and few-shot visual
prototype are fused to generate the multimodal prototype for detection. Our
models can efficiently fuse the visual and semantic information at both
token-level and feature-level. We comprehensively evaluate the proposed
multimodal FSOD models on multiple few-shot object detection benchmarks,
achieving promising results.
- Abstract(参考訳): 本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
以前の作品のほとんどは、視覚情報と意味情報の相補性を無視して、少数またはゼロショットのオブジェクト検出に焦点を当てていた。
まず,事前学習された視覚言語モデルから下流タスクへのゼロショットトランスファー手法であるメタラーニングとプロンプトベースラーニングが概念的に類似していることを示す。
どちらも、事前訓練されたタスクと同じ下流タスクの目的を変更し、主に事前訓練されたモデルのパラメータをチューニングしない。
そこで本研究では,マルチモーダルfsodにおけるメタラーニングとプロンプトベースラーニングを組み合わせて,多ショットベースクラス上で転送可能なクラス非依存なマルチモーダルfsodモデルを学習することを提案する。
具体的には、事前学習された視覚言語モデルをよりうまく活用するために、ソフトプロンプトを生成するためにメタラーニングベースのクロスモーダルプロンプトが提案されている。
そして、抽出したセマンティックプロトタイプと少数ショットのビジュアルプロトタイプとを融合させてマルチモーダルプロトタイプを生成して検出する。
我々のモデルは、トークンレベルと特徴レベルの両方で視覚情報と意味情報を効率的に融合させることができる。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合評価し,有望な結果を得た。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - On the Limits of Multi-modal Meta-Learning with Auxiliary Task Modulation Using Conditional Batch Normalization [35.39571632348391]
少ないショット学習は、新しいタスクに対処できる表現を学習することを目的としている。
近年の研究では、クロスモーダル学習は、数発の分類において表現を改善することが示されている。
言語は豊かなモダリティであり、視覚的な学習を導くのに使うことができる。
論文 参考訳(メタデータ) (2024-05-29T04:29:12Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Meta Learning to Bridge Vision and Language Models for Multimodal
Few-Shot Learning [38.37682598345653]
視覚モデルと言語モデルとのギャップを埋めるために,マルチモーダルなメタ学習手法を導入する。
我々は,凍結した大規模視覚と言語モデルを効率的にブリッジするためにメタラーナーとして機能するメタマッパーネットワークを定義する。
我々は,最近提案されたマルチモーダル・スショット・ベンチマークに対するアプローチを評価し,新しい視覚概念を単語に結合する速度を計測した。
論文 参考訳(メタデータ) (2023-02-28T17:46:18Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。