Fugu-MT 論文翻訳(概要): Multimodal Prompting with Missing Modalities for Visual Recognition

論文の概要: Multimodal Prompting with Missing Modalities for Visual Recognition

arxiv url: http://arxiv.org/abs/2303.03369v1
Date: Mon, 6 Mar 2023 18:54:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-07 14:53:16.584659
Title: Multimodal Prompting with Missing Modalities for Visual Recognition
Title（参考訳）: 視覚認識のためのモダリティを欠いたマルチモーダルプロンプト
Authors: Yi-Lun Lee, Yi-Hsuan Tsai, Wei-Chen Chiu, Chen-Yu Lee
Abstract要約: 視覚認識のためのマルチモーダル学習における課題として,1)実世界の状況下でのトレーニングやテストにおいてモダリティの欠如が発生した場合,2)重変圧器モデルの微調整に計算資源が利用できない場合,の2つを挙げる。具体的には、モデル全体のトレーニングに比べて学習可能なパラメータが1%未満であるにもかかわらず、一般的なモダリティケースを扱うために、モダリティ許容プロンプトをマルチモーダルトランスフォーマーにプラグインすることができる。
参考スコア（独自算出の注目度）: 40.961534960897595
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we tackle two challenges in multimodal learning for visual recognition: 1) when missing-modality occurs either during training or testing in real-world situations; and 2) when the computation resources are not available to finetune on heavy transformer models. To this end, we propose to utilize prompt learning and mitigate the above two challenges together. Specifically, our modality-missing-aware prompts can be plugged into multimodal transformers to handle general missing-modality cases, while only requiring less than 1% learnable parameters compared to training the entire model. We further explore the effect of different prompt configurations and analyze the robustness to missing modality. Extensive experiments are conducted to show the effectiveness of our prompt learning framework that improves the performance under various missing-modality cases, while alleviating the requirement of heavy model re-training. Code is available.
Abstract（参考訳）: 本稿では,視覚認識のためのマルチモーダル学習における2つの課題に取り組む。 1) 現実の状況下で訓練中又は試験中にモダリティが欠落した場合 2) 重変圧器モデル上で計算資源が微調整できない場合。そこで,本稿では,これら2つの課題を即時学習と緩和することを提案する。具体的には、modality-missing-awareプロンプトをマルチモーダルトランスフォーマーに挿入して、一般的な欠落したモダリティケースを処理できますが、モデル全体のトレーニングと比較して学習可能なパラメータは1%未満です。我々はさらに,異なるプロンプト構成の効果を探索し,欠落したモダリティに対するロバスト性を分析する。重モデル再訓練の要件を緩和しつつ, 様々なモダリティケースにおいて, 性能向上を図りつつ, 即時学習フレームワークの有効性を示すため, 広範囲な実験を行った。コードは利用可能。

関連論文リスト

Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文参考訳（メタデータ） (2025-05-19T15:43:10Z)
Decoupled Multimodal Prototypes for Visual Recognition with Missing Modalities [3.88369051454137]
マルチモーダル学習は、複数のデータモダリティから情報を知覚し、理解することで、ディープラーニングモデルを強化する。既存のアプローチのほとんどは、現実のアプリケーションでしばしば失敗する前提として、すべてのモダリティの可用性を前提としています。最近の研究は、欠落したモダリティによる性能劣化を軽減するために学習可能な欠落事例認識プロンプトを導入している。個別のモダリティに適合したクラスワイドプロトタイプを欠落ケース認識する新しいデカップリング型プロトタイプベース出力ヘッドを提案する。
論文参考訳（メタデータ） (2025-05-13T06:53:37Z)
Retrieval-Augmented Dynamic Prompt Tuning for Incomplete Multimodal Learning [27.867369806400834]
本稿では,Retrieval-AuGmented Dynamic Prompt TuningフレームワークであるRAGPTを提案する。 RAGPTは、(I)マルチチャネルレトリバー、(II)モダリティ生成器、(III)コンテキスト認識プロンプトの3つのモジュールから構成される。 3つの実世界のデータセットで実施された実験によると、RAGPTは不完全なモダリティ問題に対処する際の全ての競争ベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2025-01-02T07:39:48Z)
Chameleon: Images Are What You Need For Multimodal Learning Robust To Missing Modalities [17.723207830420996]
マルチモーダル学習法は、1つ以上のモダリティが欠如している場合、劣化した性能を示すことが多い。本稿では,従来のマルチブランチ設計から完全に逸脱した,頑健なテキスト-視覚的マルチモーダル学習手法Chameleonを提案する。実験は、Hateful Memes, UPMC Food-101, MM-IMDb, Ferramentaの4つの一般的なデータセットで行われている。
論文参考訳（メタデータ） (2024-07-23T07:29:57Z)
Encapsulating Knowledge in One Prompt [56.31088116526825]
KiOPは、元のモデルを変更したり、トレーニングデータにアクセスする必要なしに、さまざまなモデルからの知識を単独のプロンプトにカプセル化する。実用性の観点から、このパラダイムは、データアクセス不能なコンテキストにおけるVisual Promptの有効性を証明している。様々なデータセットとモデルを用いた実験は、提案したKiOP知識伝達パラダイムの有効性を示す。
論文参考訳（メタデータ） (2024-07-16T16:35:23Z)
Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文参考訳（メタデータ） (2024-07-07T13:55:56Z)
Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。 MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文参考訳（メタデータ） (2024-04-23T16:01:33Z)
Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity [9.811378971225727]
本稿では、欠落したモダリティに関する現在の研究を低データ体制に拡張する。フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得することは、しばしばコストがかかる。本稿では,この2つの重要な問題に対処するために,検索強化したテキスト内学習を提案する。
論文参考訳（メタデータ） (2024-03-14T14:19:48Z)
Can Text-to-image Model Assist Multi-modal Learning for Visual Recognition with Visual Modality Missing? [37.73329106465031]
視覚的モダリティの欠如に対するデータ効率の向上とロバスト性をモデル化するためのテキスト・ツー・イメージ・フレームワークであるGTI-MMを提案する。以上の結果から, 合成画像はトレーニングにおける視覚的データの欠如によるトレーニングデータの効率向上と, トレーニングやテストに関わる視覚的データの欠如によるモデルロバスト性向上に寄与することが示唆された。
論文参考訳（メタデータ） (2024-02-14T09:21:00Z)
Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (2023-12-20T18:59:58Z)
Visual Prompt Flexible-Modal Face Anti-Spoofing [23.58674017653937]
実世界から収集されたマルチモーダル顔データは様々な画像センサーのモダリティが欠如しているためしばしば不完全です本稿では, 凍結前基礎モデルを下流のフレキシブル・モダルFASタスクに適応させるために, モーダル関連プロンプトを学習するフレキシブル・モダルFASを提案する。 2つのマルチモーダルFASベンチマークデータセットで実施された実験は、我々のVP-FASフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2023-07-26T05:06:41Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。