論文の概要: Benchmarking Foundation Models with Multimodal Public Electronic Health Records
- arxiv url: http://arxiv.org/abs/2507.14824v1
- Date: Sun, 20 Jul 2025 05:08:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.076656
- Title: Benchmarking Foundation Models with Multimodal Public Electronic Health Records
- Title(参考訳): マルチモーダル電子健康記録を用いたベンチマーク基礎モデル
- Authors: Kunyu Yu, Rui Yang, Jingchi Liao, Siqi Li, Huitao Li, Irene Li, Yifan Peng, Rishikesan Kamaleswaran, Nan Liu,
- Abstract要約: 本稿では,基礎モデルの性能,公平性,解釈可能性を評価するベンチマークを提案する。
我々は異種臨床記録を解析可能な形式に調和させる標準化されたデータ処理パイプラインを開発した。
以上の結果から,複数のデータモダリティを組み込むことで,バイアスを伴わずに予測性能が一貫した改善がもたらされることが示唆された。
- 参考スコア(独自算出の注目度): 24.527782376051693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models have emerged as a powerful approach for processing electronic health records (EHRs), offering flexibility to handle diverse medical data modalities. In this study, we present a comprehensive benchmark that evaluates the performance, fairness, and interpretability of foundation models, both as unimodal encoders and as multimodal learners, using the publicly available MIMIC-IV database. To support consistent and reproducible evaluation, we developed a standardized data processing pipeline that harmonizes heterogeneous clinical records into an analysis-ready format. We systematically compared eight foundation models, encompassing both unimodal and multimodal models, as well as domain-specific and general-purpose variants. Our findings demonstrate that incorporating multiple data modalities leads to consistent improvements in predictive performance without introducing additional bias. Through this benchmark, we aim to support the development of effective and trustworthy multimodal artificial intelligence (AI) systems for real-world clinical applications. Our code is available at https://github.com/nliulab/MIMIC-Multimodal.
- Abstract(参考訳): ファンデーションモデルは、電子健康記録(EHR)を処理するための強力なアプローチとして現れ、多様な医療データモダリティを扱う柔軟性を提供する。
そこで本研究では,MIMIC-IVデータベースを用いて,アンモダルエンコーダおよびマルチモーダル学習者としての基礎モデルの性能,公平性,解釈可能性を評価する総合ベンチマークを提案する。
整合性および再現性のある評価を支援するため,異種臨床記録を解析可能な形式に調和させる標準化されたデータ処理パイプラインを開発した。
我々は,一様モデルと多様モデル,ドメイン固有モデルと汎用モデルを含む8つの基礎モデルを体系的に比較した。
以上の結果から,複数のデータモダリティを組み込むことで,バイアスを伴わずに予測性能が一貫した改善がもたらされることが示唆された。
本ベンチマークは,実世界の臨床応用のための,効果的かつ信頼性の高いマルチモーダル人工知能(AI)システムの開発を支援することを目的としている。
私たちのコードはhttps://github.com/nliulab/MIMIC-Multimodal.comで利用可能です。
関連論文リスト
- MoMA: A Mixture-of-Multimodal-Agents Architecture for Enhancing Clinical Prediction Modelling [5.334856176687711]
複数の大規模言語モデル (LLM) エージェントを臨床予測に利用するために設計された新しいアーキテクチャであるMixture-of-Multimodal-Agents (MoMA) を導入する。
MoMAは、医学画像や実験結果などの非テクストのモダリティを構造化されたテキスト要約に変換するために、特殊なLLMエージェント(特殊エージェント)を使用している。
MoMAは現在の最先端メソッドよりも優れており、さまざまなタスクにおける精度と柔軟性の向上を強調している。
論文 参考訳(メタデータ) (2025-08-07T15:28:34Z) - Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding [4.383326688441244]
FAME(Fairness-Aware Multimodal Embeddings, FAME)は,FAME(Fairness-Aware Multimodal Embeddings, FAME, FAME, FAME-Aware Multimodal Embeddings)の略。
誤差分布分散指数(EDDI)を利用して、サブグループ間の公平性を測定する。
我々は,FAMEの有効性を,他のベースラインと比較して,性能と公平性の観点から示す。
論文 参考訳(メタデータ) (2025-06-16T05:23:42Z) - PyTDC: A multimodal machine learning training, evaluation, and inference platform for biomedical foundation models [59.17570021208177]
PyTDCは、マルチモーダルな生物学的AIモデルのための合理化されたトレーニング、評価、推論ソフトウェアを提供する機械学習プラットフォームである。
本稿では、PyTDCのアーキテクチャの構成要素と、我々の知る限り、導入したシングルセルドラッグターゲットMLタスクにおける第一種ケーススタディについて論じる。
論文 参考訳(メタデータ) (2025-05-08T18:15:38Z) - What are You Looking at? Modality Contribution in Multimodal Medical Deep Learning Methods [0.13194391758295113]
本稿では,モデルがタスクを果たすためのデータセットにおいて,各モダリティの重要性を測定する手法を提案する。
いくつかのネットワークは、一様崩壊の傾向にあるモダリティの選好を持ち、いくつかのデータセットはゼロから不均衡であることがわかった。
深層学習に基づくマルチモーダル研究における解釈可能性の分野において,本手法は重要な貢献をする。
論文 参考訳(メタデータ) (2025-02-28T12:39:39Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Integrated multimodal artificial intelligence framework for healthcare
applications [3.6222901399459215]
我々は,マルチモーダル入力を利用するAIシステムの生成とテストを容易にするために,統合されたホリスティックAI in Medicineフレームワークを提案し,評価する。
このアプローチでは、一般化可能なデータ前処理と機械学習モデリングステージを使用し、医療環境における研究やデプロイメントに容易に適応できる。
このフレームワークは、さまざまなヘルスケアのデモンストレーションにおいて、同様のシングルソースアプローチを上回る、一貫して、堅牢にモデルを生成できることを示します。
論文 参考訳(メタデータ) (2022-02-25T22:08:09Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。