論文の概要: Multimodal Prompting with Missing Modalities for Visual Recognition
- arxiv url: http://arxiv.org/abs/2303.03369v1
- Date: Mon, 6 Mar 2023 18:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 14:53:16.584659
- Title: Multimodal Prompting with Missing Modalities for Visual Recognition
- Title(参考訳): 視覚認識のためのモダリティを欠いたマルチモーダルプロンプト
- Authors: Yi-Lun Lee, Yi-Hsuan Tsai, Wei-Chen Chiu, Chen-Yu Lee
- Abstract要約: 視覚認識のためのマルチモーダル学習における課題として,1)実世界の状況下でのトレーニングやテストにおいてモダリティの欠如が発生した場合,2)重変圧器モデルの微調整に計算資源が利用できない場合,の2つを挙げる。
具体的には、モデル全体のトレーニングに比べて学習可能なパラメータが1%未満であるにもかかわらず、一般的なモダリティケースを扱うために、モダリティ許容プロンプトをマルチモーダルトランスフォーマーにプラグインすることができる。
- 参考スコア(独自算出の注目度): 40.961534960897595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle two challenges in multimodal learning for visual
recognition: 1) when missing-modality occurs either during training or testing
in real-world situations; and 2) when the computation resources are not
available to finetune on heavy transformer models. To this end, we propose to
utilize prompt learning and mitigate the above two challenges together.
Specifically, our modality-missing-aware prompts can be plugged into multimodal
transformers to handle general missing-modality cases, while only requiring
less than 1% learnable parameters compared to training the entire model. We
further explore the effect of different prompt configurations and analyze the
robustness to missing modality. Extensive experiments are conducted to show the
effectiveness of our prompt learning framework that improves the performance
under various missing-modality cases, while alleviating the requirement of
heavy model re-training. Code is available.
- Abstract(参考訳): 本稿では,視覚認識のためのマルチモーダル学習における2つの課題に取り組む。
1) 現実の状況下で訓練中又は試験中にモダリティが欠落した場合
2) 重変圧器モデル上で計算資源が微調整できない場合。
そこで,本稿では,これら2つの課題を即時学習と緩和することを提案する。
具体的には、modality-missing-awareプロンプトをマルチモーダルトランスフォーマーに挿入して、一般的な欠落したモダリティケースを処理できますが、モデル全体のトレーニングと比較して学習可能なパラメータは1%未満です。
我々はさらに,異なるプロンプト構成の効果を探索し,欠落したモダリティに対するロバスト性を分析する。
重モデル再訓練の要件を緩和しつつ, 様々なモダリティケースにおいて, 性能向上を図りつつ, 即時学習フレームワークの有効性を示すため, 広範囲な実験を行った。
コードは利用可能。
関連論文リスト
- Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity [9.811378971225727]
本稿では、欠落したモダリティに関する現在の研究を低データ体制に拡張する。
フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得することは、しばしばコストがかかる。
本稿では,この2つの重要な問題に対処するために,検索強化したテキスト内学習を提案する。
論文 参考訳(メタデータ) (2024-03-14T14:19:48Z) - Can Text-to-image Model Assist Multi-modal Learning for Visual
Recognition with Visual Modality Missing? [37.73329106465031]
視覚的モダリティの欠如に対するデータ効率の向上とロバスト性をモデル化するためのテキスト・ツー・イメージ・フレームワークであるGTI-MMを提案する。
以上の結果から, 合成画像はトレーニングにおける視覚的データの欠如によるトレーニングデータの効率向上と, トレーニングやテストに関わる視覚的データの欠如によるモデルロバスト性向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-02-14T09:21:00Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [96.30363067135761]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Towards Robust Multimodal Prompting With Missing Modalities [22.176372579439356]
マルチモーダルプロンプトは、すべての欠落したモダリティケースに対して学習可能な欠落認識プロンプトを導入する。
トレーニングと推論の間にモダリティの設定が欠けているシナリオでは、堅牢性に欠けています。
これらの課題に対処するために,単純かつ効果的なプロンプト設計を提案する。
論文 参考訳(メタデータ) (2023-12-26T05:43:55Z) - Generative Multimodal Models are In-Context Learners [62.31022638619485]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Visual Prompt Flexible-Modal Face Anti-Spoofing [23.58674017653937]
実世界から収集されたマルチモーダル顔データは 様々な画像センサーの モダリティが欠如しているため しばしば不完全です
本稿では, 凍結前基礎モデルを下流のフレキシブル・モダルFASタスクに適応させるために, モーダル関連プロンプトを学習するフレキシブル・モダルFASを提案する。
2つのマルチモーダルFASベンチマークデータセットで実施された実験は、我々のVP-FASフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-07-26T05:06:41Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Towards Good Practices for Missing Modality Robust Action Recognition [20.26021126604409]
本稿では,マルチモーダル動作認識のための一連のベストプラクティスを提案する。
トレーニング中にモデルを効果的に正規化する方法を研究する。
第二に、欠落したモダリティに対するロバスト性のための融合法について検討する。
第3に、モダリティ予測符号の欠如を学習する単純なモジュラーネットワークであるActionMAEを提案する。
論文 参考訳(メタデータ) (2022-11-25T06:10:57Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.23266008930045]
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。
データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。
大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
論文 参考訳(メタデータ) (2021-07-15T17:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。