論文の概要: Generative Foundation Model for Structured and Unstructured Electronic Health Records
- arxiv url: http://arxiv.org/abs/2508.16054v1
- Date: Fri, 22 Aug 2025 03:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.234527
- Title: Generative Foundation Model for Structured and Unstructured Electronic Health Records
- Title(参考訳): 構造的・非構造的電子健康記録の創成モデル
- Authors: Sonish Sivarajkumar, Hang Zhang, Yuelyu Ji, Maneesh Bilalpur, Xizhi Wu, Chenyu Li, Min Gu Kwak, Shyam Visweswaran, Yanshan Wang,
- Abstract要約: Generative Deep patient (GDP)は、構造化EHR時系列をCNN-Transformerエンコーダでエンコードし、非構造化EHRと融合するマルチモーダル基礎モデルである。
MIMIC-IVでは,心不全AUROC=0.923,2型糖尿病AUROC=0.817,30日間の寛解AUROC=0.627であった。
- 参考スコア(独自算出の注目度): 10.687198380096314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic health records (EHRs) are rich clinical data sources but complex repositories of patient data, spanning structured elements (demographics, vitals, lab results, codes), unstructured clinical notes and other modalities of data. Harnessing this heterogeneity is critical for improving patient outcomes. Recent advances in large language models (LLMs) have enabled foundation models that can learn from multiple data modalities and support clinical tasks. However, most current approaches simply serialize numeric EHR data into text, which risks losing temporal and quantitative detail. We introduce Generative Deep Patient (GDP), a multimodal foundation model that natively encodes structured EHR time-series via a CNN-Transformer encoder and fuses it with unstructured EHRs through cross-modal attention into a LLaMA-based decoder. GDP is trained in two stages: (1) generative pretraining, where it learns to produce clinical narratives from raw patient timelines while also performing masked feature prediction (MFP) and next time-step prediction (NTP) to capture temporal dynamics; and (2) multi-task fine-tuning for clinically meaningful predictions (e.g., heart failure, type 2 diabetes, 30-day readmission). In clinical prediction, GDP demonstrated superior performance on MIMIC-IV: heart failure AUROC = 0.923, type 2 diabetes AUROC = 0.817, and 30-day readmission AUROC = 0.627. For narrative generation, GDP achieved ROUGE-L = 0.135 and BERTScore-F1 = 0.545. In a blinded human evaluation, GDP-Instruct scored highest on faithfulness, fluency, and overall clinical utility, suggesting reduced hospital documentation workload without sacrificing accuracy. Our results demonstrate that a single multimodal foundation model can both predict clinically actionable events and generate high-quality clinical narratives. Furthermore, GDP's flexible architecture can be extended to additional modalities.
- Abstract(参考訳): 電子カルテ(EHR)は、豊富な臨床データソースであるが、患者データの複雑なリポジトリであり、構造化された要素(デコグラフィー、バイタル、実験結果、コード)、非構造化された臨床ノート、その他のデータモダリティにまたがっている。
この不均一性を損なうことは、患者の結果を改善するのに重要である。
大規模言語モデル(LLM)の最近の進歩は、複数のデータモダリティから学習し、臨床タスクをサポートする基盤モデルを可能にしている。
しかし、現在のほとんどのアプローチは、単に数値EHRデータをテキストにシリアライズするだけであり、時間的および量的な詳細を失うリスクがある。
我々は、CNN-Transformerエンコーダを介して構造化EHR時系列をネイティブにエンコードし、LLaMAベースのデコーダにクロスモーダルアテンションを通して非構造化EHRと融合するマルチモーダル基盤モデルであるGenerative Deep patient (GDP)を紹介する。
GDPは1つの段階において訓練される: 生成前訓練(生成前訓練)、生の患者タイムラインから臨床物語を作成することを学ぶと同時に、マスク付き特徴予測(MFP)と次の時間ステップ予測(NTP)を実行して時間的ダイナミクスを捉えること、そして2つの段階において臨床的に有意な予測(例えば、心不全、2型糖尿病、30日間の寛解)のためのマルチタスク微調整を行う。
MIMIC-IVでは,心不全AUROC=0.923,2型糖尿病AUROC=0.817,30日間の寛解AUROC=0.627であった。
物語生成では、GDPはROUGE-L =0.135、BERTScore-F1 =0.545を達成した。
盲目の人的評価では、GDP-Instructは、正確さを犠牲にすることなく、病院文書の作業量を減らし、忠実度、流用度、総合的な臨床的有用性に高い評価を与えた。
以上の結果から, 単一のマルチモーダルファンデーションモデルを用いて, 臨床的に実行可能な事象を予測し, 高品質な臨床物語を生成できることが示唆された。
さらに、GDPの柔軟なアーキテクチャは追加のモダリティにまで拡張することができる。
関連論文リスト
- Improving Hospital Risk Prediction with Knowledge-Augmented Multimodal EHR Modeling [14.3674176608249]
臨床リスク予測のために構造化データと非構造化データをシームレスに統合する統合フレームワークを導入する。
微調整大言語モデル(LLM)は臨床ノートからタスク関連情報を抽出する。
第2段階は構造化されていない表現と構造化データから派生した特徴を組み合わせて最終的な予測を生成する。
論文 参考訳(メタデータ) (2025-08-04T01:03:16Z) - Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models [70.64969663547703]
AdaCVDは、英国バイオバンクから50万人以上の参加者を対象に、大規模な言語モデルに基づいて構築された適応可能なCVDリスク予測フレームワークである。
包括的かつ可変的な患者情報を柔軟に取り込み、構造化データと非構造化テキストの両方をシームレスに統合し、最小限の追加データを使用して新規患者の集団に迅速に適応する。
論文 参考訳(メタデータ) (2025-05-30T14:42:02Z) - EMERGE: Enhancing Multimodal Electronic Health Records Predictive Modeling with Retrieval-Augmented Generation [22.94521527609479]
EMERGEはRetrieval-Augmented Generation(RAG)駆動のフレームワークであり、マルチモーダルEHR予測モデリングを強化する。
時系列データと臨床ノートからエンティティを抽出し,LLM(Large Language Models)を誘導し,プロのPrimeKGと整合させる。
抽出した知識は、患者の健康状態のタスク関連サマリーを生成するために使用される。
論文 参考訳(メタデータ) (2024-05-27T10:53:15Z) - TRIALSCOPE: A Unifying Causal Framework for Scaling Real-World Evidence Generation with Biomedical Language Models [21.437563965711004]
本稿では,大規模観測データから堅牢な実世界の証拠を生成するためのフレームワークであるTRIALSCOPEを提案する。
このフレームワークは、高品質な構造化された患者データを自動的にキュレートし、データセットを拡張し、非構造化形式でのみ利用可能な主要な患者属性を組み込む。
また,TriALSCOPEは,抽出した実世界のデータから,肺癌および膵癌の臨床試験の結果を再現できることを示した。
論文 参考訳(メタデータ) (2023-11-02T15:15:47Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z) - Foresight -- Deep Generative Modelling of Patient Timelines using
Electronic Health Records [46.024501445093755]
医学史の時間的モデリングは、将来の出来事を予測し、シミュレートしたり、リスクを見積り、代替診断を提案したり、合併症を予測するために使用することができる。
我々は、文書テキストを構造化されたコード化された概念に変換するためにNER+Lツール(MedCAT)を使用する新しいGPT3ベースのパイプラインであるForesightを提示する。
論文 参考訳(メタデータ) (2022-12-13T19:06:00Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z) - BiteNet: Bidirectional Temporal Encoder Network to Predict Medical
Outcomes [53.163089893876645]
本稿では,患者の医療旅行におけるコンテキスト依存と時間的関係を捉える,新たな自己注意機構を提案する。
エンド・ツー・エンドの双方向時間エンコーダネットワーク(BiteNet)が患者の旅路の表現を学習する。
実世界のEHRデータセットを用いた2つの教師付き予測と2つの教師なしクラスタリングタスクにおける手法の有効性を評価した。
論文 参考訳(メタデータ) (2020-09-24T00:42:36Z) - Med7: a transferable clinical natural language processing model for
electronic health records [6.935142529928062]
本稿では,臨床自然言語処理のための匿名認識モデルを提案する。
このモデルは、薬物名、ルート、頻度、摂取量、強度、形態、期間の7つのカテゴリを認識するよう訓練されている。
本研究は、米国における集中治療室のデータから、英国における二次医療精神保健記録(CRIS)へのモデル導入可能性を評価するものである。
論文 参考訳(メタデータ) (2020-03-03T00:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。