論文の概要: When Does Multimodal Learning Help in Healthcare? A Benchmark on EHR and Chest X-Ray Fusion
- arxiv url: http://arxiv.org/abs/2602.23614v1
- Date: Fri, 27 Feb 2026 02:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.211583
- Title: When Does Multimodal Learning Help in Healthcare? A Benchmark on EHR and Chest X-Ray Fusion
- Title(参考訳): 医療におけるマルチモーダルラーニングはいつ役に立つか : EHRと胸部X線融合のベンチマーク
- Authors: Kejing Yin, Haizhou Xu, Wenfang Yao, Chen Liu, Zijie Chen, Yui Haang Cheung, William K. Cheung, Jing Qin,
- Abstract要約: 機械学習は、臨床的な意思決定を支援することを約束するが、マルチモーダルな学習が実際にいつ役に立つのかは不明だ。
我々は、MIMIC-IVとMIMIC-CXRの標準化コホート上で、電子健康記録(EHR)と胸部X線(CXR)のマルチモーダル融合のベンチマークを行う。
この研究は、異なる融合戦略がどう比較されるか、既存の手法がモダリティの欠如にどれほど頑健であるか、マルチモーダルモデルがアルゴリズムの公正性を達成するかどうかなど、いくつかの重要な洞察を明らかにした。
- 参考スコア(独自算出の注目度): 16.683852533321666
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning holds promise for advancing clinical decision support, yet it remains unclear when multimodal learning truly helps in practice, particularly under modality missingness and fairness constraints. In this work, we conduct a systematic benchmark of multimodal fusion between Electronic Health Records (EHR) and chest X-rays (CXR) on standardized cohorts from MIMIC-IV and MIMIC-CXR, aiming to answer four fundamental questions: when multimodal fusion improves clinical prediction, how different fusion strategies compare, how robust existing methods are to missing modalities, and whether multimodal models achieve algorithmic fairness. Our study reveals several key insights. Multimodal fusion improves performance when modalities are complete, with gains concentrating in diseases that require complementary information from both EHR and CXR. While cross-modal learning mechanisms capture clinically meaningful dependencies beyond simple concatenation, the rich temporal structure of EHR introduces strong modality imbalance that architectural complexity alone cannot overcome. Under realistic missingness, multimodal benefits rapidly degrade unless models are explicitly designed to handle incomplete inputs. Moreover, multimodal fusion does not inherently improve fairness, with subgroup disparities mainly arising from unequal sensitivity across demographic groups. To support reproducible and extensible evaluation, we further release a flexible benchmarking toolkit that enables plug-and-play integration of new models and datasets. Together, this work provides actionable guidance on when multimodal learning helps, when it fails, and why, laying the foundation for developing clinically deployable multimodal systems that are both effective and reliable. The open-source toolkit can be found at https://github.com/jakeykj/CareBench.
- Abstract(参考訳): 機械学習は、臨床的な意思決定を支援することを約束するが、マルチモーダルな学習が実際、特にモダリティの欠如と公平さの制約の下でいつ役に立つのかは、まだ不明である。
本研究では,MIMIC-IVとMIMIC-CXRの標準化コホートに対する電子健康記録(EHR)と胸部X線(CXR)のマルチモーダル融合の系統的ベンチマークを行い,マルチモーダル融合が臨床予測を改善する場合,融合戦略がどう比較されるか,既存手法がモダリティの欠如に対していかに堅牢であるか,マルチモーダルモデルがアルゴリズムフェアネスを達成するか,の4つの基本的な疑問に答える。
我々の研究はいくつかの重要な洞察を明らかにしている。
マルチモーダル融合は、モーダル化が完了すると性能を向上し、EHRとCXRの相補的な情報を必要とする疾患に集中する。
クロスモーダル学習機構は、単純な結合を超えて臨床的に有意な依存関係を捉えるが、EHRの豊富な時間構造は、アーキテクチャの複雑さだけでは克服できない強いモダリティの不均衡をもたらす。
現実的な欠点の下では、モデルが不完全な入力を扱うように明示的に設計されない限り、マルチモーダルの利点は急速に低下する。
さらに、マルチモーダル融合は本質的にフェアネスを改善せず、主に人口集団間の不平等な感受性から生じるサブグループ格差がある。
再現性と拡張性の評価をサポートするため,新しいモデルとデータセットのプラグアンドプレイ統合を可能にするフレキシブルなベンチマークツールキットを新たにリリースする。
この研究は、マルチモーダル学習がいつ、いつ、いつ、なぜ、効果的かつ信頼性のある、臨床的にデプロイ可能なマルチモーダルシステムを開発するための基盤を築き上げるか、という、実用的なガイダンスを提供する。
オープンソースのツールキットはhttps://github.com/jakeykj/CareBench.orgにある。
関連論文リスト
- Learning Contrastive Multimodal Fusion with Improved Modality Dropout for Disease Detection and Prediction [17.717216490402482]
改良されたモダリティドロップアウトとコントラスト学習を統合した,新しいマルチモーダル学習フレームワークを提案する。
疾患検出および予測タスクのための大規模臨床データセットの枠組みを検証した。
本研究は,マルチモーダル学習におけるアプローチの有効性,効率,一般化性を明らかにするものである。
論文 参考訳(メタデータ) (2025-09-22T18:12:12Z) - CLIMD: A Curriculum Learning Framework for Imbalanced Multimodal Diagnosis [21.001994821490644]
不均衡型マルチモーダル診断(CLIMD)のためのカリキュラム学習フレームワークを提案する。
具体的には、まず、モーダル内信頼度とモーダル間相補性を組み合わせたマルチモーダルカリキュラム尺度を設計し、モデルがキーサンプルに集中できるようにする。
プラグイン・アンド・プレイのCLフレームワークとして、CLIMDは他のモデルに容易に統合することができ、マルチモーダル病の診断精度を向上させるための有望な経路を提供する。
論文 参考訳(メタデータ) (2025-08-03T05:25:12Z) - Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。
重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。
PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文 参考訳(メタデータ) (2025-01-16T08:04:04Z) - HyperMM : Robust Multimodal Learning with Varying-sized Inputs [4.377889826841039]
HyperMMは、さまざまなサイズの入力で学習するために設計されたエンドツーエンドフレームワークである。
本稿では,条件付きハイパーネットワークを用いたユニバーサル特徴抽出器のトレーニング手法を提案する。
アルツハイマー病の診断と乳癌の分類の2つの課題において,本手法の利点を実験的に実証した。
論文 参考訳(メタデータ) (2024-07-30T12:13:18Z) - Automated Ensemble Multimodal Machine Learning for Healthcare [52.500923923797835]
本稿では,自動機械学習を用いた構造化臨床(タブラル)データと医用画像の統合を実現するマルチモーダルフレームワークAutoPrognosis-Mを紹介する。
AutoPrognosis-Mには、畳み込みニューラルネットワークとビジョントランスフォーマーを含む17のイメージングモデルと、3つの異なるマルチモーダル融合戦略が含まれている。
論文 参考訳(メタデータ) (2024-07-25T17:46:38Z) - HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。
HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。