論文の概要: Resilient Vision-Tabular Multimodal Learning under Modality Missingness
- arxiv url: http://arxiv.org/abs/2605.12031v1
- Date: Tue, 12 May 2026 12:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.849734
- Title: Resilient Vision-Tabular Multimodal Learning under Modality Missingness
- Title(参考訳): モダリティの欠如下におけるレジリエント・ビジョン-タブラル・マルチモーダル学習
- Authors: Camillo Maria Caruso, Valerio Guarrasi, Paolo Soda,
- Abstract要約: マルチモーダルディープラーニングは医療応用において大きな可能性を秘めている。
既存のアプローチの多くは、完全にモダリティの可用性を暗黙的に仮定している。
共同視覚・タブラリ学習のためのマルチモーダルトランスフォーマーフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.696842238811138
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal deep learning has shown strong potential in medical applications by integrating heterogeneous data sources such as medical images and structured clinical variables. However, most existing approaches implicitly assume complete modality availability, an assumption that rarely holds in real-world clinical settings where entire modalities and individual features are frequently missing. In this work, we propose a multimodal transformer framework for joint vision-tabular learning explicitly designed to operate under pervasive modality missingness, without relying on imputation or heuristic model switching. The architecture integrates three components: a vision, a tabular, and a multimodal fusion encoder. Unimodal representations are weighted through learnable modality tokens and fused via intermediate fusion with masked self-attention, which excludes missing tokens and modalities from information aggregation and gradient propagation. To further enhance resilience, we introduce a modality-dropout regularization strategy that stochastically removes available modalities during training, encouraging the model to exploit complementary information under partial data availability. We evaluate our approach on the MIMIC-CXR dataset paired with structured clinical data from MIMIC-IV for multilabel classification of 14 diagnostic findings with incomplete annotations. Two parallel systematic stress-test protocols progressively increase training and inference missingness in each modality separately, spanning fully multimodal to fully unimodal scenarios. Across all missingness regimes, the proposed method consistently outperforms representative baselines, showing smoother performance degradation and improved robustness. Ablation studies further demonstrate that attention-level masking and intermediate fusion with joint fine-tuning are key to resilient multimodal inference.
- Abstract(参考訳): マルチモーダル深層学習は、医療画像や構造化された臨床変数などの異種データソースを統合することで、医療応用に強い可能性を示している。
しかし、既存のほとんどのアプローチは、完全なモダリティの可用性を暗黙的に仮定している。
本研究では,広汎なモダリティの欠如を考慮し,インパルスやヒューリスティックなモデルスイッチングを必要とせず,多モーダルな視覚・タブラル学習を実現するための多モーダルトランスフォーマフレームワークを提案する。
アーキテクチャはビジョン、表、マルチモーダル融合エンコーダの3つのコンポーネントを統合している。
一様表現は学習可能なモダリティトークンを通じて重み付けされ、情報集約や勾配伝播から欠落したトークンやモダリティを除外するマスク付き自己注意と中間融合によって融合される。
レジリエンスをさらに向上するため、トレーニング中に利用可能なモダリティを確率的に除去するモダリティ・ドロップアウト正規化戦略を導入し、部分的なデータ可用性の下で補完的な情報を活用することを奨励する。
本研究はMIMIC-CXRデータセットとMIMIC-IVの構造化された臨床データとを併用して,不完全アノテーションを用いた14の診断所見の多ラベル分類を行った。
2つの並列な系統的ストレステストプロトコルは、訓練と推論の欠如を個別に増加させ、完全なマルチモーダルから完全なユニモーダルシナリオにまたがる。
提案手法は,全ての欠落状況において,よりスムーズな性能劣化とロバスト性の向上を示す代表ベースラインよりも一貫して優れていた。
アブレーション研究は、注意レベルマスキングと関節微細調整による中間融合がレジリエントなマルチモーダル推論の鍵であることをさらに示している。
関連論文リスト
- REMIND: Rethinking Medical High-Modality Learning under Missingness--A Long-Tailed Distribution Perspective [10.304297174213293]
本稿では,任意のモダリティの組み合わせに対して,グループ固有のマルチモーダル融合関数を学習するグループ特化Mixture-of-Expertsアーキテクチャを提案する。
我々の中核となる考え方は、任意のモダリティの組み合わせに対して、グループ固有の多モード融合関数を辛抱強く学習する、新しいグループ特殊化Mixture-of-Expertsアーキテクチャを提案することである。
論文 参考訳(メタデータ) (2026-02-09T10:16:37Z) - Calibrated Multimodal Representation Learning with Missing Modalities [100.55774771852468]
マルチモーダル表現学習は、それらを統一潜在空間に整列させることにより、異なるモダリティを調和させる。
最近の研究は、従来のクロスモーダルアライメントを一般化して、強化されたマルチモーダル・シナジーを生成するが、すべてのモダリティを共通の例に含める必要がある。
我々は、アンカーシフトの観点から、この問題に関する理論的洞察を提供する。
モーダルの欠如に起因する不完全なアライメントを校正するために,マルチモーダル表現学習のためのCalMRLを提案する。
論文 参考訳(メタデータ) (2025-11-15T05:01:43Z) - scMRDR: A scalable and flexible framework for unpaired single-cell multi-omics data integration [53.683726781791385]
単一セルマルチオミクス(ScMRDR)と呼ばれるスケーラブルでフレキシブルな生成フレームワークを導入する。
本手法は, バッチ補正, モダリティアライメント, 生体信号保存の観点から, ベンチマークデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2025-10-28T21:28:39Z) - Learning Contrastive Multimodal Fusion with Improved Modality Dropout for Disease Detection and Prediction [17.717216490402482]
改良されたモダリティドロップアウトとコントラスト学習を統合した,新しいマルチモーダル学習フレームワークを提案する。
疾患検出および予測タスクのための大規模臨床データセットの枠組みを検証した。
本研究は,マルチモーダル学習におけるアプローチの有効性,効率,一般化性を明らかにするものである。
論文 参考訳(メタデータ) (2025-09-22T18:12:12Z) - impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。
マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。
本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文 参考訳(メタデータ) (2025-08-08T10:01:16Z) - Robust Incomplete-Modality Alignment for Ophthalmic Disease Grading and Diagnosis via Labeled Optimal Transport [28.96009174108652]
眼底画像と光コヒーレンス断層撮影(OCT)を併用したマルチモーダル眼底画像診断を行った。
既存の一般的なパイプライン、例えばモダリティ計算や蒸留法は、顕著な制限に直面している。
本稿では,眼科診断の課題において欠落したモダリティを頑健に扱える新しい多モードアライメントと融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T13:36:39Z) - Robust Multimodal Learning for Ophthalmic Disease Grading via Disentangled Representation [30.697291934309206]
医療機器の欠如とデータのプライバシーに関する懸念により、マルチモーダルデータは現実世界のアプリケーションではまれである。
伝統的な深層学習法は一般に、潜在空間における表現の学習によってこれらの問題に対処する。
著者らはEssence-Point and Disentangle Representation Learning (EDRL)戦略を提案している。
論文 参考訳(メタデータ) (2025-03-07T10:58:38Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。