論文の概要: XGeM: A Multi-Prompt Foundation Model for Multimodal Medical Data Generation
- arxiv url: http://arxiv.org/abs/2501.04614v3
- Date: Thu, 03 Jul 2025 07:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 19:52:56.740581
- Title: XGeM: A Multi-Prompt Foundation Model for Multimodal Medical Data Generation
- Title(参考訳): XGeM:マルチモーダル医療データ生成のためのマルチプロンプト基礎モデル
- Authors: Daniele Molino, Francesco Di Feola, Eliodoro Faiella, Deborah Fazzini, Domiziana Santucci, Linlin Shen, Valerio Guarrasi, Paolo Soda,
- Abstract要約: XGeMは、医療データモダリティ間のフレキシブルな任意の合成をサポートするために設計されたマルチモーダル生成モデルである。
XGeMは、コントラスト学習を通じて共有潜在空間を構築し、新しいマルチプロンプトトレーニング戦略を導入する。
我々は、XGeMが匿名化、クラス不均衡、データ不足といった重要な医療データ課題をどのようにサポートするかを示す。
- 参考スコア(独自算出の注目度): 22.908801443059758
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The adoption of Artificial Intelligence in medical imaging holds great promise, yet it remains hindered by challenges such as data scarcity, privacy concerns, and the need for robust multimodal integration. While recent advances in generative modeling have enabled high-quality synthetic data generation, existing approaches are often limited to unimodal, unidirectional synthesis and therefore lack the ability to jointly synthesize multiple modalities while preserving clinical consistency. To address this challenge, we introduce XGeM, a 6.77-billion-parameter multimodal generative model designed to support flexible, any-to-any synthesis between medical data modalities. XGeM constructs a shared latent space via contrastive learning and introduces a novel Multi-Prompt Training strategy, enabling conditioning on arbitrary subsets of input modalities. This design allows the model to adapt to heterogeneous clinical inputs and generate multiple outputs jointly, preserving both semantic and structural coherence. We extensively validate XGeM: first we benchmark it against five competitors on the MIMIC-CXR dataset, a state-of-the-art dataset for multi-view Chest X-ray and radiological report generation. Secondly, we perform a Visual Turing Test with expert radiologists to assess the realism and clinical relevance of the generated data, ensuring alignment with real-world scenarios. Finally, we show how XGeM can support key medical data challenges such as anonymization, class imbalance, and data scarcity, underscoring its utility as a foundation model for medical data synthesis. Project page is at https://cosbidev.github.io/XGeM/.
- Abstract(参考訳): 医療画像における人工知能の採用は大きな可能性を秘めているが、データ不足、プライバシーの懸念、堅牢なマルチモーダル統合の必要性といった課題に悩まされている。
生成モデリングの最近の進歩により、高品質な合成データ生成が可能になったが、既存のアプローチはしばしば一方向合成に制限されるため、臨床整合性を維持しながら複数のモダリティを共同で合成する能力が欠如している。
この課題に対処するために,医療データモダリティ間のフレキシブルな任意の合成をサポートするように設計された6.77ビリオンパラメトリック・マルチモーダル生成モデルであるXGeMを紹介する。
XGeMは、コントラスト学習を通じて共有潜在空間を構築し、入力モダリティの任意の部分集合の条件付けを可能にする、新しいマルチプロンプトトレーニング戦略を導入する。
この設計により、モデルは異種の臨床的な入力に適応し、複数の出力を共同で生成し、セマンティックと構造的コヒーレンスの両方を保存することができる。
まず、MIMIC-CXRデータセット、マルチビュー胸部X線および放射線学的レポート生成のための最先端データセットの5つの競合相手に対してベンチマークを行う。
第2に、専門家の放射線学者によるビジュアルチューリングテストを行い、生成したデータのリアリズムと臨床的関連性を評価し、現実のシナリオと整合性を確保する。
最後に、XGeMが、匿名化、クラス不均衡、データ不足といった重要な医療データ課題をどのようにサポートするかを示し、医療データ合成の基礎モデルとしての有用性を強調する。
プロジェクトページはhttps://cosbidev.github.io/XGeM/。
関連論文リスト
- Any-to-Any Vision-Language Model for Multimodal X-ray Imaging and Radiological Report Generation [26.589728923739596]
マルチモーダル医療データ生成に特化して設計されたフレームワークを提案する。
多視点胸部X線の発生と臨床報告により、汎用視覚言語モデルと医療の専門的要件とのギャップを埋める。
我々のフレームワークは、下流疾患分類タスクの実際のデータと比較して、同等またはそれ以上の性能を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:07:24Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - UNICORN: A Deep Learning Model for Integrating Multi-Stain Data in Histopathology [2.9389205138207277]
UNICORNは動脈硬化の重症度予測のための多段階組織学を処理できるマルチモーダルトランスフォーマーである。
このアーキテクチャは、2段階のエンドツーエンドのトレーニング可能なモデルと、トランスフォーマーの自己保持ブロックを利用する特殊なモジュールから構成される。
UNICORNは0.67の分類精度を達成し、他の最先端モデルを上回った。
論文 参考訳(メタデータ) (2024-09-26T12:13:52Z) - Personalized 2D Binary Patient Codes of Tissue Images and Immunogenomic Data Through Multimodal Self-Supervised Fusion [0.9374652839580183]
MarbliXは、病理組織像と免疫ゲノムシークエンシングデータを統合し、それらを簡潔なバイナリー患者コードにカプセル化する革新的なフレームワークである。
実験の結果は、医療専門家に深い洞察を与えるMarbliXの可能性を示している。
論文 参考訳(メタデータ) (2024-09-19T22:49:27Z) - Towards Precision Healthcare: Robust Fusion of Time Series and Image Data [8.579651833717763]
本稿では,データの種類毎に2つのエンコーダを用いて,視覚情報と時間情報の両方において複雑なパターンをモデル化する手法を提案する。
また、不均衡なデータセットに対処し、不確実性損失関数を使用し、改善した結果を得る。
本手法は,臨床応用におけるマルチモーダルディープラーニングの改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-05-24T11:18:13Z) - MMIST-ccRCC: A Real World Medical Dataset for the Development of Multi-Modal Systems [12.914295902429]
本稿では,MMIST-CCRCCと呼ばれる実世界のマルチモーダルデータセットを紹介する。
このデータセットは、クリア細胞腎細胞癌(ccRCC)618例の2つの放射線学的モダリティ(CTとMRI)、病理組織学、ゲノム学、臨床データからなる。
このような深刻な欠落率であっても、モダリティの融合は生存予測の改善につながることを示す。
論文 参考訳(メタデータ) (2024-05-02T18:29:05Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。
我々は, 単一モダリティモデルと最先端MRI-タブラルデータ融合法の両方に優れることを示す。
論文 参考訳(メタデータ) (2024-03-20T05:50:04Z) - DrFuse: Learning Disentangled Representation for Clinical Multi-Modal
Fusion with Missing Modality and Modal Inconsistency [18.291267748113142]
そこで本研究では,DrFuseを効果的に多モード核融合を実現するために提案する。
モダリティに共通する特徴と各モダリティに特有の特徴を分離することで、モダリティの欠如に対処する。
実世界の大規模データセットMIMIC-IVとMIMIC-CXRを用いて提案手法を検証する。
論文 参考訳(メタデータ) (2024-03-10T12:41:34Z) - HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。
HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Building Flexible, Scalable, and Machine Learning-ready Multimodal
Oncology Datasets [17.774341783844026]
本研究は、オンコロジーデータシステム(MINDS)のマルチモーダル統合を提案する。
MINDSはフレキシブルでスケーラブルで費用対効果の高いメタデータフレームワークで、公開ソースから異なるデータを効率的に分離する。
MINDSは、マルチモーダルデータを調和させることで、より分析能力の高い研究者を力づけることを目指している。
論文 参考訳(メタデータ) (2023-09-30T15:44:39Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - EMIXER: End-to-end Multimodal X-ray Generation via Self-supervision [39.07263052525579]
我々は,X線画像と対応する自由テキストレポートを共同で合成する,エンド・ツー・エンドのMultimodal X線生成モデル(EMIXER)を提案する。
EMIXERは、1)ラベルに基づいて画像を生成すること、2)隠された埋め込みに画像をエンコードすること、3)画像埋め込みから階層的デコーダを介して対応するテキストを生成すること、、4)画像と対応するテキストの両方を評価する共同識別器により、条件付き生成対向モデルである。
EMIXER生成した合成データセットは、X線画像分類、レポート生成モデルを強化して5。
論文 参考訳(メタデータ) (2020-07-10T20:19:01Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。