論文の概要: SimMLM: A Simple Framework for Multi-modal Learning with Missing Modality
- arxiv url: http://arxiv.org/abs/2507.19264v2
- Date: Wed, 06 Aug 2025 17:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:09.399889
- Title: SimMLM: A Simple Framework for Multi-modal Learning with Missing Modality
- Title(参考訳): SimMLM: モダリティを欠くマルチモーダル学習のためのシンプルなフレームワーク
- Authors: Sijie Li, Chen Chen, Jungong Han,
- Abstract要約: モーダルを欠くマルチモーダル学習のためのシンプルで強力なフレームワークであるSimMLMを提案する。
SimMLMは、動的で学習可能なゲーティング機構を備えたDMoME(Dynamic Mixture of Modality Experts)アーキテクチャで構成されている。
SimMLMの主な革新はMoFe(MoFe)ランキングの損失の増加であり、より多くのモダリティが利用可能になるにつれてタスクの精度が向上または安定し続けることを保証する。
- 参考スコア(独自算出の注目度): 52.948791050405525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose SimMLM, a simple yet powerful framework for multimodal learning with missing modalities. Unlike existing approaches that rely on sophisticated network architectures or complex data imputation techniques, SimMLM provides a generic and effective solution that can adapt to various missing modality scenarios with improved accuracy and robustness. Specifically, SimMLM consists of a generic Dynamic Mixture of Modality Experts (DMoME) architecture, featuring a dynamic, learnable gating mechanism that automatically adjusts each modality's contribution in both full and partial modality settings. A key innovation of SimMLM is the proposed More vs. Fewer (MoFe) ranking loss, which ensures that task accuracy improves or remains stable as more modalities are made available. This aligns the model with an intuitive principle: removing one or more modalities should not increase accuracy. We validate SimMLM on multimodal medical image segmentation (BraTS 2018) and multimodal classification (UPMC Food-101, avMNIST) tasks, where it consistently surpasses competitive methods, demonstrating superior accuracy, interpretability, robustness, and reliability across both complete and missing modality scenarios at test time.
- Abstract(参考訳): 本稿では,モダリティを欠くマルチモーダル学習のためのシンプルだが強力なフレームワークであるSimMLMを提案する。
高度なネットワークアーキテクチャや複雑なデータ計算技術に依存する既存のアプローチとは異なり、SimMLMは、精度と堅牢性を改善して、様々な欠落したモダリティシナリオに適応できる汎用的で効果的なソリューションを提供する。
具体的には、SimMLMはDMoME(Dynamic Mixture of Modality Experts)アーキテクチャで構成され、動的で学習可能なゲーティング機構を備え、全モードと部分モードの両方で各モードの寄与を自動的に調整する。
SimMLMの重要な革新はMoFe(MoFe)ランキングの損失の増加であり、より多くのモダリティが利用可能になるにつれてタスクの精度が向上または安定し続けることを保証している。
1つ以上のモダリティを削除することは、正確さを増すべきではない。
マルチモーダルな医用画像セグメンテーション(BraTS 2018)とマルチモーダルな分類(UPMC Food-101, avMNIST)のタスクでSimMLMを検証する。
関連論文リスト
- Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - Dynamic Modality Scheduling for Multimodal Large Models via Confidence, Uncertainty, and Semantic Consistency [0.0]
本研究では,各モダリティの寄与をサンプル単位で適応的に調整する新しいフレームワークである動的モダリティスケジューリング(DMS)を提案する。
VQA、画像テキスト検索、キャプションタスクの実験結果から、DMSはクリーンとロバストの両方のパフォーマンスを著しく改善することが示された。
論文 参考訳(メタデータ) (2025-06-15T05:15:52Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - Robust Multimodal Learning via Cross-Modal Proxy Tokens [11.704477276235847]
クロスモーダルプロキシトークン(CMPT)は、明示的なモダリティ生成や補助的ネットワークを必要とすることなく、欠落したモダリティのクラストークンを近似する。
フリーズユニモーダルエンコーダに低ランクアダプタを使用し、タスク固有の損失を伴うアライメント損失を共同で最適化する。
我々の手法は、堅牢なマルチモーダル学習のための柔軟で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-01-29T18:15:49Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - MetaOpenFOAM: an LLM-based multi-agent framework for CFD [11.508919041921942]
MetaOpenFOAMは、新しいマルチエージェントコラボレーションフレームワークである。
入力として自然言語のみを用いてCFDシミュレーションタスクを完了することを目的としている。
MetaGPTのアセンブリラインパラダイムのパワーを利用する。
論文 参考訳(メタデータ) (2024-07-31T04:01:08Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing [3.3031006227198003]
マルチモーダルデータの助けを借りて任意のモーダルアタックの性能を向上させることを目的としたモダリティ非依存型視覚変換器(MA-ViT)を提案する。
具体的には、MA-ViTは早期融合を採用し、利用可能なすべてのトレーニングモダリティデータを集約し、任意のモダリティサンプルの柔軟なテストを可能にする。
実験により、MA-ViTでトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-04-15T13:03:44Z) - Missing Modality meets Meta Sampling (M3S): An Efficient Universal
Approach for Multimodal Sentiment Analysis with Missing Modality [5.171058506312429]
モダリティを欠いたマルチモーダル感情分析,すなわちミス・モダリティに基づくメタサンプリング(M3S)のための,シンプルで効果的なメタサンプリング手法を提案する。
M3Sは、モーダル非依存メタラーニングフレームワークに欠落したモダリティサンプリング戦略を定式化する。
我々は,IEMOCAP,SIMS,CMU-MOSIデータセット上で実験を行い,最近の最先端手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2022-10-07T09:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。