論文の概要: The Patient is not a Moving Document: A World Model Training Paradigm for Longitudinal EHR
- arxiv url: http://arxiv.org/abs/2601.22128v1
- Date: Thu, 29 Jan 2026 18:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.092481
- Title: The Patient is not a Moving Document: A World Model Training Paradigm for Longitudinal EHR
- Title(参考訳): 患者は移動文書ではない:縦型EHRのための世界モデルトレーニングパラダイム
- Authors: Irsyad Adam, Zekai Chen, David Laprade, Shaun Porwal, David Laub, Erik Reinertsen, Arda Pekis, Kevin Brown,
- Abstract要約: SMB構造(SMB-Structure)は、次世代予測(SFT)と共同埋め込み予測アーキテクチャ(JEPA)を基盤とした構造化EHRの世界モデルである。
メモリアル・スローン・ケタリング(23,319人,323,000人以上)とINSPECT(19,402人)の2つの大規模コホートで検証を行った。
- 参考スコア(独自算出の注目度): 3.9541492005870604
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) trained with next-word-prediction have achieved success as clinical foundation models. Representations from these language backbones yield strong linear probe performance across biomedical tasks, suggesting that patient semantics emerge from next-token prediction at scale. However, this paradigm treats patients as a document to be summarized rather than a dynamical system to be simulated; a patient's trajectory emerges from their state evolving under interventions and time, requiring models that simulate dynamics rather than predict tokens. To address this, we introduce SMB-Structure, a world model for structured EHR that grounds a joint-embedding prediction architecture (JEPA) with next-token prediction (SFT). SFT grounds our model to reconstruct future patient states in token space, while JEPA predicts those futures in latent space from the initial patient representation alone, forcing trajectory dynamics to be encoded before the next state is observed. We validate across two large-scale cohorts: Memorial Sloan Kettering (23,319 oncology patients; 323,000+ patient-years) and INSPECT (19,402 pulmonary embolism patients). Using a linear probe evaluated at multiple points along the disease trajectory, we demonstrate that our training paradigm learns embeddings that capture disease dynamics not recoverable by autoregressive baselines, enabling SMB-Structure to achieve competitive performance on complex tasks characterized by high patient heterogeneity. Model weights are available at https://huggingface.co/standardmodelbio/SMB-v1-1.7B-Structure.
- Abstract(参考訳): 大言語モデル (LLM) は, 臨床基礎モデルとして成功している。
これらの言語バックボーンからの表現は、バイオメディカルタスク全体にわたって強い線形プローブ性能をもたらす。
しかしながら、このパラダイムは患者を、シミュレーションされる動的システムではなく要約される文書として扱う。患者の軌道は、介入や時間の下で進化する状態から現れ、トークンを予測するのではなく、ダイナミックスをシミュレートするモデルを必要とする。
そこで本研究では,次点予測(SFT)と共同埋め込み予測アーキテクチャ(JEPA)を基盤とした構造化EHRの世界モデルであるSMB-Structureを紹介する。
SFTはトークン空間における将来の患者状態を再構築するためのモデルであり、JEPAは初期患者表現のみから潜伏空間におけるこれらの未来を予測し、次の状態が観測される前に軌道力学をエンコードすることを強制する。
大規模なコホートとしては,メモリアル・スローン・ケタリング(23,319人,323,000人以上)とINSPECT(19,402人)がある。
本研究では, 自己回帰的ベースラインによって回復不能な疾患のダイナミックスを捕捉する埋め込みを学習し, SMB-Structure が患者の不均一性に特徴付けられる複雑なタスクにおいて, 競合的な性能を達成することを実証した。
モデルウェイトはhttps://huggingface.co/standardmodelbio/SMB-v1-1.7B-Structureで入手できる。
関連論文リスト
- CLARITY: Medical World Model for Guiding Treatment Decisions by Modeling Context-Aware Disease Trajectories in Latent Space [49.74032713886216]
CLARITYは、構造化潜在空間内で直接疾患の進化を予測する医療世界モデルである。
時間間隔(時間的文脈)と患者固有のデータ(臨床的文脈)を明確に統合し、スムーズで解釈可能な軌跡として治療条件の進行をモデル化する。
論文 参考訳(メタデータ) (2025-12-08T20:42:10Z) - Analysis of heart failure patient trajectories using sequence modeling [2.5101181751229915]
Mambaアーキテクチャは、Llamaをベースとした高度なTransformer(Transformer++)で、長いコンテキスト長を扱う。
ラマは最も高い予測的差別を達成し、最高の校正を行い、全てのタスクに頑丈さを示し、その後にマンバが続く。
本稿では、入力トークン化、モデル構成、時間データ前処理のための体系的設計選択を用いた最初のアブレーション研究について述べる。
論文 参考訳(メタデータ) (2025-11-20T22:43:25Z) - Foundation Models for Clinical Records at Health System Scale [40.88151645546234]
次世代イベント予測を用いたシーケンシャルEHRデータのための新しい生成事前学習戦略を提案する。
本モデルは,患者の来訪履歴に基づいて,各種のトークン化臨床イベントを自己回帰的に生成することを学ぶ。
論文 参考訳(メタデータ) (2025-07-01T08:52:33Z) - From EHRs to Patient Pathways: Scalable Modeling of Longitudinal Health Trajectories with LLMs [38.49879425944787]
本稿では,多様な電子健康記録(EHR)データを構造化表現に変換することで,患者経路モデリングの新しい手法を提案する。
本稿では,長期的文脈をトピック固有の要約トークンに組み込む新しい要約機構を導入し,テキストのみの性能を向上させる。
論文 参考訳(メタデータ) (2025-06-05T09:54:01Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - COPER: Continuous Patient State Perceiver [13.735956129637945]
本研究では,ERHにおける不規則な時系列に対処するため,COPERと呼ばれる新規患者状態パーセンシバーモデルを提案する。
ニューラル常微分方程式(ODE)は、COPERが通常の時系列を生成してPerceiverモデルに供給するのに役立ちます。
提案モデルの性能評価には,MIMIC-IIIデータセット上での院内死亡予測タスクを用いる。
論文 参考訳(メタデータ) (2022-08-05T14:32:57Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。