論文の概要: Scaling Recurrence-aware Foundation Models for Clinical Records via Next-Visit Prediction
- arxiv url: http://arxiv.org/abs/2603.24562v1
- Date: Wed, 25 Mar 2026 17:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.415246
- Title: Scaling Recurrence-aware Foundation Models for Clinical Records via Next-Visit Prediction
- Title(参考訳): 臨床記録の次世代予測による再帰的基礎モデルのスケーリング
- Authors: Haresh Rengaraj Rajamohan, Xiang Gao, Weicheng Zhu, Shih-Lun Huang, Long Chen, Gabe Schulman, Huizhen Jin, Shengduo Li, Yixuan Wang, Huidi Yang, Kyunghyun Cho, Cem M. Deniz, Narges Razavian,
- Abstract要約: 本稿では、Recurrence-Aware next-Visit EveNt予測に基づく、シーケンシャルEHRデータの新たな生成事前学習戦略であるRAVENを提案する。
本モデルでは,患者の来訪履歴に基づいて,自己回帰的にトークン化臨床イベントを自動生成することを学ぶ。
- 参考スコア(独自算出の注目度): 34.2525943791427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large-scale pretraining has revolutionized language modeling, its potential remains underexplored in healthcare with structured electronic health records (EHRs). We present RAVEN, a novel generative pretraining strategy for sequential EHR data based on Recurrence-Aware next-Visit EveNt prediction. Leveraging a dataset of over one million unique individuals, our model learns to autoregressively generate tokenized clinical events for the next visit conditioned on patient history. We introduce regularization on predicting repeated events and highlight a key pitfall in EHR-based foundation model evaluations: repeated event tokens can inflate performance metrics when new onsets are not distinguished from subsequent occurrences. Furthermore, we empirically investigate the scaling behaviors in a data-constrained, compute-saturated regime, showing that simply increasing model size is suboptimal without commensurate increases in data volume. We evaluate our model via zero-shot prediction for forecasting the incidence of a diverse set of diseases, where it rivals fully fine-tuned representation-based Transformer models and outperforms widely used simulation-based next-token approaches. Finally, without additional parameter updates, we show that RAVEN can generalize to an external patient cohort under lossy clinical code mappings and feature coverage gaps.
- Abstract(参考訳): 大規模な事前訓練は言語モデリングに革命をもたらしたが、その潜在能力は構造化された電子健康記録(EHRs)を持つ医療分野で過小評価されている。
本稿では、Recurrence-Aware next-Visit EveNt予測に基づく、シーケンシャルEHRデータの新たな生成事前学習戦略であるRAVENを提案する。
我々のモデルは100万人以上の個人からなるデータセットを活用して、患者の履歴に基づいて、次の訪問条件でトークン化された臨床イベントを自動回帰的に生成することを学ぶ。
EHRベースの基礎モデル評価において、繰り返しイベントの予測の正規化を導入し、重要な落とし穴を浮き彫りにする: 繰り返しイベントトークンは、新しいオンセットがその後の発生と区別されない場合にパフォーマンス指標をインフレさせることができる。
さらに,データ量の増加を伴わないモデルサイズの増加は,データ量の増加を伴わずに最適であることを示す。
そこでは, 完全微調整表現型トランスフォーマーモデルと競合し, シミュレーションに基づく次世代手法よりも優れ, 多様な疾患の出現を予測するため, ゼロショット予測によるモデルの評価を行った。
最後に,RAVENを外部の患者コホートに一般化できることを示す。
関連論文リスト
- Foundation Models for Clinical Records at Health System Scale [40.88151645546234]
次世代イベント予測を用いたシーケンシャルEHRデータのための新しい生成事前学習戦略を提案する。
本モデルは,患者の来訪履歴に基づいて,各種のトークン化臨床イベントを自己回帰的に生成することを学ぶ。
論文 参考訳(メタデータ) (2025-07-01T08:52:33Z) - Lost in Retraining: Roaming the Parameter Space of Exponential Families Under Closed-Loop Learning [0.0]
指数族に属するモデルに対する閉ループ学習について検討する。
パラメータの最大確率は、マーチンゲール特性に十分な統計量を与えることを示す。
この結果が,地上の真理モデルから生成された少なくとも1つのデータポイントを含む場合,この結果が防止されることが示唆された。
論文 参考訳(メタデータ) (2025-06-25T17:12:22Z) - Zero-shot Medical Event Prediction Using a Generative Pre-trained Transformer on Electronic Health Records [8.575985305475355]
生成事前学習型トランス (GPT) は, EHRにおける時系列データを利用して, 将来の事象を予測できる。
これらのモデルの微調整はタスク固有のパフォーマンスを高めるが、多くの臨床予測タスクに適用するとコストがかかる。
事前訓練された基礎モデルはゼロショット予測設定で使用することができ、結果ごとに微調整された個別モデルに代わるスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-03-07T19:26:47Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Towards Out-of-Distribution Sequential Event Prediction: A Causal
Treatment [72.50906475214457]
シーケンシャルなイベント予測の目標は、一連の歴史的なイベントに基づいて次のイベントを見積もることである。
実際には、次のイベント予測モデルは、一度に収集されたシーケンシャルなデータで訓練される。
文脈固有の表現を学習するための階層的な分岐構造を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T07:54:13Z) - Simple Recurrent Neural Networks is all we need for clinical events
predictions using EHR data [22.81278657120305]
リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、EHRに基づく臨床イベント予測モデルのための一般的なアーキテクチャである。
心不全の発症リスクと入院早期入院のリスクの2つの予測課題を用いた。
GRUやLSTMなどの単純なゲート付きRNNモデルでは,ベイズ最適化を適切に調整した場合に,しばしば競合する結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-03T13:07:23Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。