論文の概要: COPE: Chain-Of-Thought Prediction Engine for Open-Source Large Language Model Based Stroke Outcome Prediction from Clinical Notes
- arxiv url: http://arxiv.org/abs/2512.02499v1
- Date: Tue, 02 Dec 2025 07:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.776286
- Title: COPE: Chain-Of-Thought Prediction Engine for Open-Source Large Language Model Based Stroke Outcome Prediction from Clinical Notes
- Title(参考訳): COPE:オープンソースの大言語モデルに基づく臨床ノートからのストロークアウトカム予測エンジン
- Authors: Yongkai Liu, Helena Feng, Bin Jiang, Yixin Wang, Max Wintermark, David S. Liebeskind, Michael Moseley, Maarten Lansberg, Gregory Albers, Jeremy Heit, Greg Zaharchuk,
- Abstract要約: CoT (Chain-of-Thought) Outcome Prediction Engine (COPE) は、構造化されていない臨床ノートから結果を予測するための推論強化された大規模言語モデルフレームワークである。
本研究は急性虚血性脳梗塞(AIS)464例と90日間のRanin Scale(mRS)スコアを比較検討した。
COPEは1.01 (95% CI 0.92-1.11), +/-1 の精度 74.4% (69.9, 78.8%), 正確な精度 32.8% (28.0, 37.6%) を達成した。
- 参考スコア(独自算出の注目度): 23.044580867637105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting outcomes in acute ischemic stroke (AIS) guides clinical decision-making, patient counseling, and resource allocation. Clinical notes contain rich contextual information, but their unstructured nature limits their use in traditional predictive models. We developed and evaluated the Chain-of-Thought (CoT) Outcome Prediction Engine (COPE), a reasoning-enhanced large language model framework, for predicting 90-day functional outcomes after AIS from unstructured clinical notes. This study included 464 AIS patients with discharge summaries and 90-day modified Rankin Scale (mRS) scores. COPE uses a two-step CoT framework based on sequential open-source LLaMA-3-8B models: the first generates clinical reasoning, and the second outputs an mRS prediction. We compared COPE with GPT-4.1, ClinicalBERT, a structured variable-based machine learning model (Clinical ML), and a single-step LLM without CoT. Performance was evaluated using mean absolute error (MAE), accuracy within +/-1 mRS point, and exact accuracy. COPE achieved an MAE of 1.01 (95% CI 0.92-1.11), +/-1 accuracy of 74.4% (69.9, 78.8%), and exact accuracy of 32.8% (28.0, 37.6%), comparable to GPT-4.1 and superior to ClinicalBERT [MAE 1.24 (1.13-1.36)], Clinical ML [1.28 (1.18-1.39)], and the single-step LLM [1.20 (1.09-1.33)]. Subgroup analyses showed consistent performance across sex and age, with slightly higher error among older patients, those undergoing thrombectomy, and those with longer summaries. These findings demonstrate that COPE, a lightweight, interpretable, and privacy-preserving open-source framework, provides an accurate and practical solution for outcome prediction from unstructured clinical text.
- Abstract(参考訳): 急性虚血性脳卒中(AIS)の予後予測は、臨床的意思決定、患者カウンセリング、リソース割り当てを導く。
臨床ノートには豊富な文脈情報が含まれているが、その非構造的な性質は従来の予測モデルでの使用を制限する。
我々は,非構造化臨床ノートからAIS後の90日間の機能的成果を予測するために,大規模言語モデルフレームワークである CoT (Chain-of-Thought) Outcome Prediction Engine (COPE) を開発し,評価した。
本研究は,退院サマリーを有するAIS464例と90日間のRanin Scale(mRS)スコアを比較検討した。
COPEは、シーケンシャルなオープンソースのLLaMA-3-8Bモデルに基づく2段階のCoTフレームワークを使用し、第1は臨床推論を生成し、第2はmRS予測を出力する。
我々は, COPE を GPT-4.1, ClinicalBERT, 構造化可変ベース機械学習モデル (Clinical ML) , CoT のない単一ステップ LLM と比較した。
平均絶対誤差(MAE),+/-1mRS点内精度,精度で評価した。
COPEは1.01 (95% CI 0.92-1.11), +/-1 の精度 74.4% (69.9, 78.8%), 正確な精度 32.8% (28.0, 37.6%), GPT-4.1 に匹敵する精度 (MAE 1.24 (1.13-1.36)], 臨床ML [1.28 (1.18-1.39)], 単ステップ LLM [1.20 (1.09-1.33)] を達成した。
年齢,性別,年齢別に一貫した成績を示したが, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢に差が認められた。
これらの結果から,COPEは軽量で解釈可能で,プライバシーを保護したオープンソースフレームワークであり,非構造化臨床テキストから結果を予測するための正確かつ実用的なソリューションであることがわかった。
関連論文リスト
- AUTOCT: Automating Interpretable Clinical Trial Prediction with LLM Agents [47.640779069547534]
AutoCTは、大規模言語モデルの推論能力と古典的な機械学習の説明可能性を組み合わせた、新しいフレームワークである。
臨床治験予測タスクにおいて, AutoCT は SOTA 法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2025-06-04T11:50:55Z) - Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。
評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文 参考訳(メタデータ) (2025-05-23T14:06:42Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Explainable AI for Mental Health Emergency Returns: Integrating LLMs with Predictive Modeling [2.466324275447403]
救急部門(ED)は精神状態の回復が大きな医療負担となり、患者の24-27%が30日以内に帰国する。
大規模言語モデル(LLM)と機械学習を統合することにより、EDメンタルヘルスリターンリスクモデルの予測精度と臨床的解釈性が向上するか否かを評価する。
論文 参考訳(メタデータ) (2025-01-21T15:41:20Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。