論文の概要: Learning Emergent Modular Representations in Multi-modality Medical Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2605.21861v1
- Date: Thu, 21 May 2026 01:17:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.047928
- Title: Learning Emergent Modular Representations in Multi-modality Medical Vision Foundation Models
- Title(参考訳): マルチモーダル医療ビジョン基礎モデルにおける創発的モジュール表現の学習
- Authors: Yuting He, Chenyu You, Shuo Li,
- Abstract要約: Director-Experts (DEX) は、スタックされたモジュールの動的性を制御するモジュールネットワークである。
DEXは専門家のプールで構成されており、画像ワイドアクティベーション戦略によって動的に適応される。
DEXはFMレベルの事前トレーニングを提供します。
- 参考スコア(独自算出の注目度): 18.570853857535436
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modality medical vision (MV) foundation models (FM) are fundamentally challenged by pronounced Non-IID feature statistics across heterogeneous imaging modalities. Monolithic self-supervised optimization on such data induces conflicting gradients, driving representations to collapse toward modality-dominant shortcuts. This work reframes this failure as an imbalance between specialization and coordination in emergent modularity, and proposes Director-Experts (DEX), a modular network that explicitly regulates these dynamics in stacked modules. Each DEX module comprises a pool of experts, dynamically adapted by our image-wise activation strategy, autonomously specializing in modality-dominant statistics, together with a director, updated via our group exponential moving average, which distills multi-expert knowledge into a shared space for semantic integration across modalities, thus driving the emergence of modular representations. We curate a new benchmark, Medical Vision Universe, over 4 million images across 10 modalities, which provides a FM-level pre-training with the broadest coverage of distinct imaging modalities to our DEX. Extensive evaluations on 26 downstream tasks demonstrate improved optimization behavior and transferability, indicating DEX as a principled step toward general-purpose multi-modality medical AI. Our code and dataset will be opened at https://github.com/YutingHe-list/DEX.
- Abstract(参考訳): 多モード医療ビジョン(MV)基礎モデル(FM)は、不均一な画像モダリティを横断する非IID特徴統計により、根本的な課題を解決している。
このようなデータに対するモノリシックな自己監督的最適化は矛盾する勾配を誘導し、モダリティに支配的なショートカットに向けて表現を崩壊させる。
この作業は、この失敗を、創発的なモジュール化における特殊化と調整の不均衡として再定義し、スタック化されたモジュールにおけるこれらのダイナミクスを明示的に規制するモジュールネットワークであるDirector-Experts (DEX)を提案する。
各DEXモジュールは、画像のアクティベーション戦略によって動的に適応された専門家のプールで構成され、モダリティに支配的な統計を自律的に専門化するとともに、ディレクターとともに、グループ指数移動平均によって更新され、多専門家の知識をモダリティ間のセマンティックな統合のための共有空間に蒸留し、モジュラー表現の出現を促す。
新しいベンチマークであるメディカルビジョン・ユニバース(Medical Vision Universe)は、10つのモダリティにわたる400万枚以上の画像をキュレートし、FMレベルの事前トレーニングを可能にします。
26の下流タスクに対する広範囲な評価は、最適化行動と転送可能性の改善を示し、DEXが汎用多目的医療AIへの原則的なステップであることを示している。
私たちのコードとデータセットはhttps://github.com/YutingHe-list/DEXで公開されます。
関連論文リスト
- M-IDoL: Information Decomposition for Modality-Specific and Diverse Representation Learning in Medical Foundation Model [53.96788246923603]
マルチモーダル表現学習のための情報分解を導入したM-IDoLを提案する。
1.15万の医療画像の事前トレーニングにより、M-IDoL i)は21の下流臨床タスクに優れた一般化を提供する。
論文 参考訳(メタデータ) (2026-04-10T04:06:11Z) - Toward a Multi-View Brain Network Foundation Model: Cross-View Consistency Learning Across Arbitrary Atlases [62.33465338932216]
MV-BrainFMは任意のアトラスで構築された脳ネットワークから一般化可能でスケーラブルな表現を学ぶために設計された多視点脳ネットワーク基盤モデルである。
17のfMRIデータセットから20万名以上の被験者を対象に行った実験では、MV-BrainFMは既存の14の脳ネットワーク基盤モデルより一貫して優れていた。
論文 参考訳(メタデータ) (2026-03-20T11:55:00Z) - InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing [87.5130783098133]
InternVL-Uは、マルチモーダル理解と推論機能を民主化する軽量な4BパラメータUMMである。
MLLM(Multimodal Large Language Model)と特殊なMMDiTベースのビジュアルジェネレーションヘッドを統合している。
BAGEL (14B) など,さまざまな生成タスクや編集タスクにおいて,3倍以上のスケールで統一ベースラインモデルを上回るパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-10T16:38:33Z) - MAFM^3: Modular Adaptation of Foundation Models for Multi-Modal Medical AI [3.1920084309415007]
我々は,単一の基礎モデルを多様な領域,タスク,モダリティに拡張可能なフレームワークMAFM3を提案する。
新しいタスクやモダリティを個別に扱う従来の適応手法とは異なり、MAFM3は効率的なマルチタスクとマルチモーダル適応のための統一された拡張可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-14T12:10:59Z) - MM-DINOv2: Adapting Foundation Models for Multi-Modal Medical Image Analysis [19.063517827476826]
MM-DINOv2(MM-DINOv2)は,マルチモーダル・メディカル・イメージングのための事前学習型視覚基盤モデルDINOv2に適応する新しいフレームワークである。
本手法では,マルチモーダル・パッチの埋め込みを取り入れ,視覚基盤モデルによりマルチモーダル・イメージングデータを効果的に処理することができる。
本手法は外部テストセットで0.6のマシューズ相関係数(MCC)を達成し、最先端の教師付きアプローチを+11.1%超える。
論文 参考訳(メタデータ) (2025-09-08T12:34:15Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。
我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。
我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文 参考訳(メタデータ) (2024-10-21T17:42:41Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Modality-Aware and Shift Mixer for Multi-modal Brain Tumor Segmentation [12.094890186803958]
マルチモーダル画像のモダリティ内依存性とモダリティ間依存性を統合した新しいModality Aware and Shift Mixerを提案する。
具体的には,低レベルのモザイク対関係をモデル化するためのニューロイメージング研究に基づいてModality-Awareモジュールを導入し,モザイクパターンを具体化したModality-Shiftモジュールを開発し,高レベルのモザイク間の複雑な関係を自己注意を通して探索する。
論文 参考訳(メタデータ) (2024-03-04T14:21:51Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。