論文の概要: XGeM: A Multi-Prompt Foundation Model for Multimodal Medical Data Generation
- arxiv url: http://arxiv.org/abs/2501.04614v3
- Date: Thu, 03 Jul 2025 07:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 19:52:56.740581
- Title: XGeM: A Multi-Prompt Foundation Model for Multimodal Medical Data Generation
- Title(参考訳): XGeM:マルチモーダル医療データ生成のためのマルチプロンプト基礎モデル
- Authors: Daniele Molino, Francesco Di Feola, Eliodoro Faiella, Deborah Fazzini, Domiziana Santucci, Linlin Shen, Valerio Guarrasi, Paolo Soda,
- Abstract要約: XGeMは、医療データモダリティ間のフレキシブルな任意の合成をサポートするために設計されたマルチモーダル生成モデルである。
XGeMは、コントラスト学習を通じて共有潜在空間を構築し、新しいマルチプロンプトトレーニング戦略を導入する。
我々は、XGeMが匿名化、クラス不均衡、データ不足といった重要な医療データ課題をどのようにサポートするかを示す。
- 参考スコア(独自算出の注目度): 22.908801443059758
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The adoption of Artificial Intelligence in medical imaging holds great promise, yet it remains hindered by challenges such as data scarcity, privacy concerns, and the need for robust multimodal integration. While recent advances in generative modeling have enabled high-quality synthetic data generation, existing approaches are often limited to unimodal, unidirectional synthesis and therefore lack the ability to jointly synthesize multiple modalities while preserving clinical consistency. To address this challenge, we introduce XGeM, a 6.77-billion-parameter multimodal generative model designed to support flexible, any-to-any synthesis between medical data modalities. XGeM constructs a shared latent space via contrastive learning and introduces a novel Multi-Prompt Training strategy, enabling conditioning on arbitrary subsets of input modalities. This design allows the model to adapt to heterogeneous clinical inputs and generate multiple outputs jointly, preserving both semantic and structural coherence. We extensively validate XGeM: first we benchmark it against five competitors on the MIMIC-CXR dataset, a state-of-the-art dataset for multi-view Chest X-ray and radiological report generation. Secondly, we perform a Visual Turing Test with expert radiologists to assess the realism and clinical relevance of the generated data, ensuring alignment with real-world scenarios. Finally, we show how XGeM can support key medical data challenges such as anonymization, class imbalance, and data scarcity, underscoring its utility as a foundation model for medical data synthesis. Project page is at https://cosbidev.github.io/XGeM/.
- Abstract(参考訳): 医療画像における人工知能の採用は大きな可能性を秘めているが、データ不足、プライバシーの懸念、堅牢なマルチモーダル統合の必要性といった課題に悩まされている。
生成モデリングの最近の進歩により、高品質な合成データ生成が可能になったが、既存のアプローチはしばしば一方向合成に制限されるため、臨床整合性を維持しながら複数のモダリティを共同で合成する能力が欠如している。
この課題に対処するために,医療データモダリティ間のフレキシブルな任意の合成をサポートするように設計された6.77ビリオンパラメトリック・マルチモーダル生成モデルであるXGeMを紹介する。
XGeMは、コントラスト学習を通じて共有潜在空間を構築し、入力モダリティの任意の部分集合の条件付けを可能にする、新しいマルチプロンプトトレーニング戦略を導入する。
この設計により、モデルは異種の臨床的な入力に適応し、複数の出力を共同で生成し、セマンティックと構造的コヒーレンスの両方を保存することができる。
まず、MIMIC-CXRデータセット、マルチビュー胸部X線および放射線学的レポート生成のための最先端データセットの5つの競合相手に対してベンチマークを行う。
第2に、専門家の放射線学者によるビジュアルチューリングテストを行い、生成したデータのリアリズムと臨床的関連性を評価し、現実のシナリオと整合性を確保する。
最後に、XGeMが、匿名化、クラス不均衡、データ不足といった重要な医療データ課題をどのようにサポートするかを示し、医療データ合成の基礎モデルとしての有用性を強調する。
プロジェクトページはhttps://cosbidev.github.io/XGeM/。
関連論文リスト
- Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - Towards Precision Healthcare: Robust Fusion of Time Series and Image Data [8.579651833717763]
本稿では,データの種類毎に2つのエンコーダを用いて,視覚情報と時間情報の両方において複雑なパターンをモデル化する手法を提案する。
また、不均衡なデータセットに対処し、不確実性損失関数を使用し、改善した結果を得る。
本手法は,臨床応用におけるマルチモーダルディープラーニングの改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-05-24T11:18:13Z) - MMIST-ccRCC: A Real World Medical Dataset for the Development of Multi-Modal Systems [12.914295902429]
本稿では,MMIST-CCRCCと呼ばれる実世界のマルチモーダルデータセットを紹介する。
このデータセットは、クリア細胞腎細胞癌(ccRCC)618例の2つの放射線学的モダリティ(CTとMRI)、病理組織学、ゲノム学、臨床データからなる。
このような深刻な欠落率であっても、モダリティの融合は生存予測の改善につながることを示す。
論文 参考訳(メタデータ) (2024-05-02T18:29:05Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。
我々は, 単一モダリティモデルと最先端MRI-タブラルデータ融合法の両方に優れることを示す。
論文 参考訳(メタデータ) (2024-03-20T05:50:04Z) - DrFuse: Learning Disentangled Representation for Clinical Multi-Modal
Fusion with Missing Modality and Modal Inconsistency [18.291267748113142]
そこで本研究では,DrFuseを効果的に多モード核融合を実現するために提案する。
モダリティに共通する特徴と各モダリティに特有の特徴を分離することで、モダリティの欠如に対処する。
実世界の大規模データセットMIMIC-IVとMIMIC-CXRを用いて提案手法を検証する。
論文 参考訳(メタデータ) (2024-03-10T12:41:34Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Building Flexible, Scalable, and Machine Learning-ready Multimodal
Oncology Datasets [17.774341783844026]
本研究は、オンコロジーデータシステム(MINDS)のマルチモーダル統合を提案する。
MINDSはフレキシブルでスケーラブルで費用対効果の高いメタデータフレームワークで、公開ソースから異なるデータを効率的に分離する。
MINDSは、マルチモーダルデータを調和させることで、より分析能力の高い研究者を力づけることを目指している。
論文 参考訳(メタデータ) (2023-09-30T15:44:39Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。