論文の概要: What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities?
- arxiv url: http://arxiv.org/abs/2310.06383v1
- Date: Tue, 10 Oct 2023 07:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 18:33:50.555107
- Title: What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities?
- Title(参考訳): 欠落したモダリティに直面したロバストなマルチモーダルモデルに何をもたらすのか?
- Authors: Siting Li, Chenzhuang Du, Yue Zhao, Yu Huang, Hang Zhao
- Abstract要約: 我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
- 参考スコア(独自算出の注目度): 35.19295402483624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing success of multi-modal learning, research on the robustness
of multi-modal models, especially when facing situations with missing
modalities, is receiving increased attention. Nevertheless, previous studies in
this domain exhibit certain limitations, as they often lack theoretical
insights or their methodologies are tied to specific network architectures or
modalities. We model the scenarios of multi-modal models encountering missing
modalities from an information-theoretic perspective and illustrate that the
performance ceiling in such scenarios can be approached by efficiently
utilizing the information inherent in non-missing modalities. In practice,
there are two key aspects: (1) The encoder should be able to extract
sufficiently good features from the non-missing modality; (2) The extracted
features should be robust enough not to be influenced by noise during the
fusion process across modalities. To this end, we introduce Uni-Modal Ensemble
with Missing Modality Adaptation (UME-MMA). UME-MMA employs uni-modal
pre-trained weights for the multi-modal model to enhance feature extraction and
utilizes missing modality data augmentation techniques to better adapt to
situations with missing modalities. Apart from that, UME-MMA, built on a
late-fusion learning framework, allows for the plug-and-play use of various
encoders, making it suitable for a wide range of modalities and enabling
seamless integration of large-scale pre-trained encoders to further enhance
performance. And we demonstrate UME-MMA's effectiveness in audio-visual
datasets~(e.g., AV-MNIST, Kinetics-Sound, AVE) and vision-language
datasets~(e.g., MM-IMDB, UPMC Food101).
- Abstract(参考訳): マルチモーダル学習の成功に伴い、特にモダリティの欠如に直面する場合のマルチモーダルモデルの堅牢性に関する研究が注目されている。
しかしながら、この領域における以前の研究は、理論的な洞察がしばしば欠けているか、その方法論が特定のネットワークアーキテクチャやモダリティと結びついているため、一定の限界を示す。
情報理論的な観点から、欠落モダリティに遭遇するマルチモーダルモデルのシナリオをモデル化し、非許容モダリティに固有の情報を効率的に活用することにより、そのようなシナリオにおけるパフォーマンス天井にアプローチできることを示す。
実際には,(1) エンコーダは,非許容モードから十分な優れた特徴を抽出できなければならない,(2) 抽出された特徴は,モーダル間の融合過程においてノイズの影響を受けないほど頑健である,という2つの重要な側面がある。
そこで我々は,Uni-Modal Ensemble with Missing Modality Adaptation (UME-MMA)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
これとは別に、UME-MMAはレイトフュージョン学習フレームワーク上に構築されており、様々なエンコーダをプラグイン・アンド・プレイで使用することができ、幅広いモダリティに適合し、大規模事前学習エンコーダのシームレスな統合によりパフォーマンスをさらに向上することができる。
また,視聴覚データセット (av-mnist, kinetics-sound, ave) および視覚言語データセット (mm-imdb, upmc food101) におけるume-mmaの有効性を示す。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Alt-MoE: Multimodal Alignment via Alternating Optimization of Multi-directional MoE with Unimodal Models [7.134682404460003]
そこで我々は、MoE(Mixture of Experts)をモダリティにまたがる統一多方向コネクタとして利用する、新しいトレーニングフレームワークAlt-MoEを紹介する。
我々の手法は、いくつかの優れたユニモーダルモデルで検証されている。
論文 参考訳(メタデータ) (2024-09-09T10:40:50Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。