論文の概要: MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection
- arxiv url: http://arxiv.org/abs/2410.03010v2
- Date: Mon, 7 Oct 2024 18:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 04:25:56.124336
- Title: MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection
- Title(参考訳): MMP: Masked Modality Projection を用いたロバストなマルチモーダル学習を目指して
- Authors: Niki Nezakati, Md Kaykobad Reza, Ameya Patil, Mashhour Solh, M. Salman Asif,
- Abstract要約: マルチモーダル学習は、下流タスクの性能を高めるために、複数の入力源からのデータを組み合わせることを目指している。
欠落したモダリティを処理できる既存の方法は、各入力モダリティの組み合わせに対するカスタムトレーニングまたは適応ステップを含む。
そこで我々は,MMP (Masked Modality Projection) を提案する。
- 参考スコア(独自算出の注目度): 10.909746391230206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning seeks to combine data from multiple input sources to enhance the performance of different downstream tasks. In real-world scenarios, performance can degrade substantially if some input modalities are missing. Existing methods that can handle missing modalities involve custom training or adaptation steps for each input modality combination. These approaches are either tied to specific modalities or become computationally expensive as the number of input modalities increases. In this paper, we propose Masked Modality Projection (MMP), a method designed to train a single model that is robust to any missing modality scenario. We achieve this by randomly masking a subset of modalities during training and learning to project available input modalities to estimate the tokens for the masked modalities. This approach enables the model to effectively learn to leverage the information from the available modalities to compensate for the missing ones, enhancing missing modality robustness. We conduct a series of experiments with various baseline models and datasets to assess the effectiveness of this strategy. Experiments demonstrate that our approach improves robustness to different missing modality scenarios, outperforming existing methods designed for missing modalities or specific modality combinations.
- Abstract(参考訳): マルチモーダル学習は、異なる下流タスクの性能を高めるために、複数の入力源からのデータを組み合わせることを目指している。
実世界のシナリオでは、いくつかの入力モダリティが欠如している場合、パフォーマンスは大幅に低下する可能性がある。
欠落したモダリティを処理できる既存の方法は、各入力モダリティの組み合わせに対するカスタムトレーニングまたは適応ステップを含む。
これらのアプローチは特定のモダリティに結びついているか、入力モダリティの数が増えるにつれて計算コストが高くなる。
本稿では,MMP (Masked Modality Projection) を提案する。
トレーニング中にランダムにモダリティのサブセットをマスキングし、利用可能な入力モダリティを投影し、マスクされたモダリティのトークンを推定することでこれを実現する。
このアプローチにより、モデルは利用可能なモダリティからの情報を効果的に学習して、欠落したモダリティを補うことができ、欠落したモダリティの堅牢性を高めることができる。
我々は、この戦略の有効性を評価するために、様々なベースラインモデルとデータセットを用いて一連の実験を行う。
実験により,本手法は,異なるモダリティシナリオに対するロバスト性を向上し,モダリティの欠如や特定のモダリティの組み合わせに対して,既存の手法よりも優れていることが示された。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach [29.428067329993173]
そこで本研究では,モダリティの欠落の影響を受けにくい多モーダル学習手法を提案する。
性能を最大化するためにモダリティ間表現を学ぶために、複数のモダリティにまたがる重みを共有するシングルブランチネットワークで構成されている。
提案手法は,すべてのモダリティが存在する場合や,既存の最先端手法と比較して,トレーニングやテスト中にモダリティが欠落する場合に優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-14T10:32:16Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Dealing with All-stage Missing Modality: Towards A Universal Model with Robust Reconstruction and Personalization [14.606035444283984]
現在のアプローチでは、推論中にモダリティ不完全入力を処理するモデルの開発に重点を置いている。
本稿では、モダリティ再構成とモデルパーソナライゼーションを備えた頑健な普遍モデルを提案する。
本手法は2つの脳腫瘍セグメンテーションベンチマークで広範囲に検証されている。
論文 参考訳(メタデータ) (2024-06-04T06:07:24Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation [16.17270247327955]
本稿では,事前学習型マルチモーダルネットワークに対するシンプルでパラメータ効率の良い適応手法を提案する。
このような適応は、モダリティの欠如による性能低下を部分的に補うことができることを示す。
提案手法は,様々なタスクやデータセットにまたがる汎用性を実証し,モダリティの欠如による頑健なマルチモーダル学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T03:04:21Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。