論文の概要: Large Language Models Predict Functional Outcomes after Acute Ischemic Stroke
- arxiv url: http://arxiv.org/abs/2602.10119v1
- Date: Sun, 18 Jan 2026 04:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.70954
- Title: Large Language Models Predict Functional Outcomes after Acute Ischemic Stroke
- Title(参考訳): 急性虚血性脳卒中後の機能予後を予測する大言語モデル
- Authors: Anjali K. Kapoor, Anton Alyakin, Jin Vivian Lee, Eunice Yang, Annelene M. Schulze, Krithik Vishwanath, Jinseok Lee, Yindalon Aphinyanaphongs, Howard Riina, Jennifer A. Frontera, Eric Karl Oermann,
- Abstract要約: 大規模言語モデルによる将来のmRSスコアの推測能力は、日常的な受入音から直接的に明らかでない。
凍結・微調整条件および90日間のmRS予測において,エンコーダ (BERT, NYUTron) およびジェネレーティブ (Llama-3.1-8B, MedGemma-4B) LLMs の評価を行った。
90日間の正確なmRS精度は33.9%(95% CI、27.9-39.9%)、バイナリ精度は76.3%であった。
- 参考スコア(独自算出の注目度): 1.0146687451151428
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate prediction of functional outcomes after acute ischemic stroke can inform clinical decision-making and resource allocation. Prior work on modified Rankin Scale (mRS) prediction has relied primarily on structured variables (e.g., age, NIHSS) and conventional machine learning. The ability of large language models (LLMs) to infer future mRS scores directly from routine admission notes remains largely unexplored. We evaluated encoder (BERT, NYUTron) and generative (Llama-3.1-8B, MedGemma-4B) LLMs, in both frozen and fine-tuned settings, for discharge and 90-day mRS prediction using a large, real-world stroke registry. The discharge outcome dataset included 9,485 History and Physical notes and the 90-day outcome dataset included 1,898 notes from the NYU Langone Get With The Guidelines-Stroke registry (2016-2025). Data were temporally split with the most recent 12 months held out for testing. Performance was assessed using exact (7-class) mRS accuracy and binary functional outcome (mRS 0-2 vs. 3-6) accuracy and compared against established structured-data baselines incorporating NIHSS and age. Fine-tuned Llama achieved the highest performance, with 90-day exact mRS accuracy of 33.9% [95% CI, 27.9-39.9%] and binary accuracy of 76.3% [95% CI, 70.7-81.9%]. Discharge performance reached 42.0% [95% CI, 39.0-45.0%] exact accuracy and 75.0% [95% CI, 72.4-77.6%] binary accuracy. For 90-day prediction, Llama performed comparably to structured-data baselines. Fine-tuned LLMs can predict post-stroke functional outcomes from admission notes alone, achieving performance comparable to models requiring structured variable abstraction. Our findings support the development of text-based prognostic tools that integrate seamlessly into clinical workflows without manual data extraction.
- Abstract(参考訳): 急性虚血性脳卒中後の機能的成果の正確な予測は、臨床的意思決定と資源配分に影響を及ぼす。
修正ランキンスケール(mRS)予測の以前の研究は、主に構造化変数(例えば、年齢、NIHSS)と従来の機械学習に依存していた。
大規模言語モデル (LLM) が, 日常的な受入音符から直接, 将来のmRSスコアを推定する能力は, 明らかにされていない。
凍結・微調整条件と90日間のmRS予測において,エンコーダ (BERT, NYUTron) とジェネレーティブ (Llama-3.1-8B, MedGemma-4B) LLMs を比較した。
90日間の結果データセットには、ニューヨーク大学ラングーン・ゲット・ザ・ガイドライン・ストローク登録簿(2016-2025)からの1,898通が含まれている。
データは一時的に分割され、最新の12ヶ月はテストに費やされた。
精度 (7-class) mRSの精度と2値関数結果 (mRS 0-2 vs. 3-6) の精度を用いて評価し, NIHSSと年齢を考慮した定式データベースラインと比較した。
90日間の正確なmRS精度は33.9%(95% CI、27.9-39.9%)、バイナリ精度は76.3%(95% CI、70.7-81.9%)である。
放電性能は42.0%(95% CI, 39.0-45.0%)の精度と75.0%(95% CI, 72.4-77.6%)のバイナリ精度に達した。
90日間の予測では、Llamaは構造化データベースラインと互換性を持って実行された。
微調整 LLM は入場後関数の結果を入場音のみから予測でき、構造化された変数抽象化を必要とするモデルに匹敵する性能が得られる。
本研究は,手動データ抽出を必要とせず,シームレスに臨床ワークフローに組み込むテキストベースの診断ツールの開発を支援する。
関連論文リスト
- Explainable Admission-Level Predictive Modeling for Prolonged Hospital Stay in Elderly Populations: Challenges in Low- and Middle-Income Countries [65.4286079244589]
長期滞在期間 (pLoS) は, 院内感染のリスクに関連する重要な要因である。
入院レベルの患者と病院の診療データを用いて, pLosの予測モデルを開発し, 解説する。
論文 参考訳(メタデータ) (2026-01-07T23:35:24Z) - COPE: Chain-Of-Thought Prediction Engine for Open-Source Large Language Model Based Stroke Outcome Prediction from Clinical Notes [23.044580867637105]
CoT (Chain-of-Thought) Outcome Prediction Engine (COPE) は、構造化されていない臨床ノートから結果を予測するための推論強化された大規模言語モデルフレームワークである。
本研究は急性虚血性脳梗塞(AIS)464例と90日間のRanin Scale(mRS)スコアを比較検討した。
COPEは1.01 (95% CI 0.92-1.11), +/-1 の精度 74.4% (69.9, 78.8%), 正確な精度 32.8% (28.0, 37.6%) を達成した。
論文 参考訳(メタデータ) (2025-12-02T07:44:20Z) - Predicting Metabolic Dysfunction-Associated Steatotic Liver Disease using Machine Learning Methods [0.8642326601683298]
我々は、公正で厳密で再現可能なMASLD予測モデルを開発した。
MASLDは米国の成人の33%に影響を与え、最も一般的な慢性肝疾患である。
論文 参考訳(メタデータ) (2025-10-25T13:36:18Z) - Cross-Representation Benchmarking in Time-Series Electronic Health Records for Clinical Outcome Prediction [44.23284500920266]
このベンチマークは、2つの異なる臨床環境におけるデータキュレーションと評価を標準化する。
実験によると、イベントストリームモデルは、常に最強のパフォーマンスを提供する。
特徴選択戦略は臨床環境に適応する必要がある。
論文 参考訳(メタデータ) (2025-10-10T09:03:47Z) - Benchmarking Foundation Models and Parameter-Efficient Fine-Tuning for Prognosis Prediction in Medical Imaging [40.35825564674249]
本研究では,基礎モデルにおける伝達学習戦略の堅牢性と効率性を評価するための最初の構造化されたベンチマークを紹介する。
新型コロナウイルス(COVID-19)の胸部X線データセットが4つ使用されており、死亡率、重症度、入院率をカバーしている。
一般またはバイオメディカルデータセットで事前訓練されたImageNetとFMで事前訓練されたCNNは、完全な微調整、線形探索、パラメータ効率のよい手法を用いて適応された。
論文 参考訳(メタデータ) (2025-06-23T09:16:04Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - Comparative Analysis of Epileptic Seizure Prediction: Exploring Diverse
Pre-Processing Techniques and Machine Learning Models [0.0]
脳波データを用いたてんかん発作予測のための5つの機械学習モデルの比較分析を行った。
本分析の結果は,各モデルの性能を精度で示すものである。
ETモデルは99.29%の精度で最高の性能を示した。
論文 参考訳(メタデータ) (2023-08-06T08:50:08Z) - On the explainability of hospitalization prediction on a large COVID-19
patient dataset [45.82374977939355]
我々は、新型コロナウイルス陽性の米国の患者の大規模な(110ドル以上)コホートでの入院を予測するために、さまざまなAIモデルを開発した。
高いデータアンバランスにもかかわらず、モデルは平均精度0.96-0.98 (0.75-0.85)、リコール0.96-0.98 (0.74-0.85)、F_score097-0.98 (0.79-0.83)に達する。
論文 参考訳(メタデータ) (2021-10-28T10:23:38Z) - SOUL: An Energy-Efficient Unsupervised Online Learning Seizure Detection
Classifier [68.8204255655161]
神経活動を記録して発作を検出するインプラントデバイスは、発作を抑えるために警告を発したり神経刺激を誘発したりするために採用されている。
移植可能な発作検出システムでは、低出力で最先端のオンライン学習アルゴリズムを使用して、神経信号のドリフトに動的に適応することができる。
SOULはTSMCの28nmプロセスで0.1mm2を占め、1.5nJ/分級エネルギー効率を実現した。
論文 参考訳(メタデータ) (2021-10-01T23:01:20Z) - Mind the Performance Gap: Examining Dataset Shift During Prospective
Validation [6.232311195907715]
患者のリスク階層化モデルは、かつて臨床医療に統合された振り返りのパフォーマンスと比べて悪化する可能性がある。
医療関連感染症の予測のための患者リスク階層化モデル(2020-2021)の2020-2021年の予測性能と,同モデルの ('19-'20) 振り返り検証との比較を行った。
結果として生じるパフォーマンスのギャップは、主にインフラストラクチャシフトによるものであり、時間シフトによるものではない。
論文 参考訳(メタデータ) (2021-07-23T14:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。