論文の概要: M-IDoL: Information Decomposition for Modality-Specific and Diverse Representation Learning in Medical Foundation Model
- arxiv url: http://arxiv.org/abs/2604.08936v1
- Date: Fri, 10 Apr 2026 04:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.676488
- Title: M-IDoL: Information Decomposition for Modality-Specific and Diverse Representation Learning in Medical Foundation Model
- Title(参考訳): M-IDoL:医療ファウンデーションモデルにおけるモダリティ特有・多言語表現学習のための情報分解
- Authors: Yihang Liu, Ying Wen, Jiaxiong Yang, Longzhen Yang, Lianghua He, Heng Tao Shen,
- Abstract要約: マルチモーダル表現学習のための情報分解を導入したM-IDoLを提案する。
1.15万の医療画像の事前トレーニングにより、M-IDoL i)は21の下流臨床タスクに優れた一般化を提供する。
- 参考スコア(独自算出の注目度): 53.96788246923603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical foundation models (MFMs) aim to learn universal representations from multimodal medical images that can generalize effectively to diverse downstream clinical tasks. However, most existing MFMs suffer from information ambiguity that blend multimodal representations in a single embedding space, leading to the degradation of modality specificity and diversity. In this paper, we propose M-IDoL, a self-supervised \underline{\textit{M}}FM that introduces Information Decomposition for multimodal representation Learning via two objectives: i) maximize inter-modality entropy by dispersing multimodal representation into separable Mixture-of-Experts (MoE) subspaces to achieve representation specificity across modalities; and ii) minimize intra-modality uncertainty by performing fine-grained semantic discrimination within each MoE subspace to enrich representation diversity per modality. By pre-training on 1.15 million medical images, M-IDoL i) delivers superior generalization across 21 downstream clinical tasks, outperforming 20 foundation models on five imaging modalities (e.g., X-ray, fundus, OCT, dermoscopy and pathology), and ii) learns modality-specific and diverse representations, showing clearer separation of feature cluster across modalities and finer-grained feature discrimination within each modality.
- Abstract(参考訳): 医療基盤モデル(MFM)は、下流の多様な臨床タスクに効果的に一般化できるマルチモーダル医療画像から普遍的な表現を学習することを目的としている。
しかし、既存のMFMの多くは、単一の埋め込み空間に多重モーダル表現をブレンドする情報あいまいさに悩まされ、モダリティ特異性と多様性が低下する。
本稿では,M-IDoLを提案する。M-IDoLは,マルチモーダル表現学習のための情報分解を2つの目的を通じて導入する自己教師型 \underline{\textit{M}}FM である。
一 マルチモーダル表現を分離可能なミックス・オブ・エクスプット(MoE)部分空間に分散させ、モダリティの表現特異性を達成することにより、モダリティ間のエントロピーを最大化すること。
二 モダリティごとの表現多様性を豊かにするために、各MoEサブ空間内で細かな意味的識別を行うことにより、モダリティ内不確実性を最小化する。
1億1500万枚の医療画像、M-IDoLの事前トレーニング
一 下流の21の臨床的タスクにおいて優れた一般化を行い、5つの画像モダリティ(例えば、X線、眼底、CT、皮膚内視鏡、病理)において20の基盤モデルより優れていること。
二 モダリティ固有の多様表現を学習し、各モダリティにおける特徴クラスタのより明確な分離とよりきめ細かい特徴識別を示す。
関連論文リスト
- Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation [30.047148886472637]
そこで我々は, モーダリティに比例しない, モーダリティ間の共有分布を学習する医学的離散拡散モデルMeDiMを提案する。
MeDiMは、画像とテキストの変換と、プロンプトに応答して、ドメイン間で画像-レポートペアを共同で生成する、複数の生成タスクを統一する。
論文 参考訳(メタデータ) (2025-10-07T17:06:57Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - Robust Multimodal Learning for Ophthalmic Disease Grading via Disentangled Representation [30.697291934309206]
医療機器の欠如とデータのプライバシーに関する懸念により、マルチモーダルデータは現実世界のアプリケーションではまれである。
伝統的な深層学習法は一般に、潜在空間における表現の学習によってこれらの問題に対処する。
著者らはEssence-Point and Disentangle Representation Learning (EDRL)戦略を提案している。
論文 参考訳(メタデータ) (2025-03-07T10:58:38Z) - Incomplete Modality Disentangled Representation for Ophthalmic Disease Grading and Diagnosis [16.95583564875497]
本稿では,不完全なモダリティ・ディアンタングル表現(IMDR)戦略を提案する。
4つのマルチモーダルデータセットの実験により、提案したIMDRが最先端の手法を大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-02-17T12:10:35Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。