論文の概要: Foundation Models to Unlock Real-World Evidence from Nationwide Medical Claims
- arxiv url: http://arxiv.org/abs/2605.02740v1
- Date: Mon, 04 May 2026 15:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.383996
- Title: Foundation Models to Unlock Real-World Evidence from Nationwide Medical Claims
- Title(参考訳): 全国医療機関から実世界の証拠を解き放つための基礎モデル
- Authors: Fan Ma, Yuntian Liu, Xiang Lan, Weipeng Zhou, Jun Ni, Mauro Giuffrè, Lingfei Qian, Xueqing Peng, Yujia Zhou, Ruey-Ling Weng, Huan He, Lu Li, Qingyu Chen, Andrew Loza, Laila Rasmy, Degui Zhi, Yuan Lu, Chenjie Zeng, Joshua C Denny, Lee Schwamm, Daniella Meeker, Lucila Ohno-Machado, Yong Chen, Hua Xu,
- Abstract要約: 管理的クレームは、医療利用、支出、診断、処置、医薬品の詳細なコーディングの経時的記録を提供する。
2008年から2022年にかけてのMarketScanの医療イベント438億件について、ゼロからトレーニングした生成トランスフォーマーReClaimを紹介します。
- 参考スコア(独自算出の注目度): 30.726958598234592
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evidence derived from large-scale real-world data (RWD) is increasingly informing regulatory evaluation and healthcare decision-making. Administrative claims provide population-scale, longitudinal records of healthcare utilization, expenditure, and detailed coding of diagnoses, procedures, and medications, yet their potential as a substrate for healthcare foundation models remains largely unexplored. Here we present ReClaim, a generative transformer trained from scratch on 43.8 billion medical events from more than 200 million enrollees in the MarketScan claims data spanning 2008-2022. ReClaim models longitudinal trajectories across diagnoses, procedures, medications, and expenditure, and was scaled to 140 million, 700 million, and 1.7 billion parameters. Across over 1,000 disease-onset prediction tasks, ReClaim achieved a mean AUC of 75.6%, substantially outperforming disease-specific LightGBM (66.3%) and the transformer-based Delphi model (69.4%), with the largest gains for rare diseases. These advantages held across retrospective and prospective evaluations and in external validation on two independent datasets. Performance improved monotonically with scale, and post-training added 13.8 percentage points over pre-training alone. Beyond disease prediction, ReClaim captured financial outcomes and improved real-world evidence (RWE) analyses: for healthcare expenditure forecasting it increased explained variance from 0.28 to 0.37 relative to LightGBM, and in a target trial emulation it reduced systematic bias by 72% on average relative to Delphi. Together, these results establish administrative claims as a scalable substrate for healthcare foundation models and show that learned representations generalize across time periods and data sources, supporting disease surveillance, expenditure forecasting, and RWE generation.
- Abstract(参考訳): 大規模な実世界のデータ(RWD)から得られた証拠は、規制評価や医療の意思決定に益々影響を与えている。
行政上の主張は、医療利用、支出、診断、処置、医薬品の詳細なコーディングに関する人口規模、縦断的な記録を提供するが、医療基盤モデルの基盤としての可能性はほとんど解明されていない。
ReClaimは2008年から2022年までの2億人以上の学生の医療イベントをスクラッチからトレーニングした生成トランスフォーマーだ。
ReClaimは、診断、処置、医薬品、支出の縦方向の軌跡をモデル化し、1億4000万、7億、17億のパラメータにスケールした。
1000以上の疾患発症予測タスクで、ReClaimは平均75.6%のAUCを達成し、疾患特異的なLightGBM(66.3%)とトランスフォーマーベースのDelphiモデル(69.4%)を大きく上回った。
これらの利点は、ふりかえりと予測的な評価、および2つの独立したデータセットに対する外部の検証に当てはまる。
成績は単調に改善され、ポストトレーニングはプレトレーニングだけで13.8ポイント増加した。
医療費の予測では、LightGBMに対する説明的差異を0.28から0.37に増加させ、ターゲットエミュレーションでは、デルフィに対する平均的な系統的バイアスを72%削減した。
これらの結果は、医療基盤モデルのスケーラブルな基盤として管理的クレームを確立し、学習された表現が、期間やデータソースにわたって一般化し、疾病の監視、支出予測、RWE生成をサポートすることを示す。
関連論文リスト
- Rethinking Retrieval-Augmented Generation for Medicine: A Large-Scale, Systematic Expert Evaluation and Practical Insights [42.23030568766672]
大きな言語モデル(LLM)は医学の風景を変えつつある。
Retrieval-augmented Generation (RAG) はこれらの制限に対処するために広く採用されている。
今回,医学におけるRAGの総合的評価について紹介する。
論文 参考訳(メタデータ) (2025-11-10T06:00:12Z) - Loss Given Default Prediction Under Measurement-Induced Mixture Distributions: An Information-Theoretic Approach [0.2538209532048866]
Loss given Default (LGD)モデリングは、基本的なデータ品質の制約に直面します。
利用可能なトレーニングデータの90%は、完了した破産手続きの実際の回復結果ではなく、プレディストレストバランスシートに基づくプロキシ推定で構成されている。
論文 参考訳(メタデータ) (2025-10-29T10:11:38Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - DeLLiriuM: A large language model for delirium prediction in the ICU using structured EHR [1.4699314771635081]
デリリウムは急性の混乱状態であり、集中治療室(ICU)の31%の患者に影響を及ぼすことが示されている。
3大データベースにわたる195病院のICU入院患者104,303名を対象にDeLLiriuMの開発と評価を行った。
論文 参考訳(メタデータ) (2024-10-22T18:56:31Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Predicting Treatment Adherence of Tuberculosis Patients at Scale [0.6873562466909032]
TB薬物への非依存は死亡と致死性の重大な原因である。
我々は、慣用階数に基づく計量に基づいて、非一貫性の早期予測の機械学習問題を定式化し、解決する。
以上の結果から,非遺伝性患者のリスク階層化は,大規模に展開可能なMLソリューションとして有効であることが示唆された。
論文 参考訳(メタデータ) (2022-11-05T17:00:21Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - All Data Inclusive, Deep Learning Models to Predict Critical Events in
the Medical Information Mart for Intensive Care III Database (MIMIC III) [0.0]
本研究は35,348人を対象に42,818人の入院患者を対象に行った。
複数のデータソースにわたる7500万以上のイベントが処理され、3億5500万以上のトークンが処理された。
すべてのデータソースを使用して構築されたモデルから、はるかに信頼性が高く、信頼性の高いホスピタル死亡を予測できる。
論文 参考訳(メタデータ) (2020-09-02T22:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。