論文の概要: Deployment and Evaluation of an EHR-integrated, Large Language Model-Powered Tool to Triage Surgical Patients
- arxiv url: http://arxiv.org/abs/2603.17234v1
- Date: Wed, 18 Mar 2026 00:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.458216
- Title: Deployment and Evaluation of an EHR-integrated, Large Language Model-Powered Tool to Triage Surgical Patients
- Title(参考訳): EHR統合大規模言語モデル作成ツールの手術患者への展開と評価
- Authors: Jane Wang, Timothy Keyes, April S Liang, Stephen P Ma, Jason Shen, Jerry Liu, Nerissa Ambers, Abby Pandya, Rita Pandya, Jason Hom, Natasha Steele, Jonathan H Chen, Kevin Schulman,
- Abstract要約: 外科的共同管理(英: surgery co-management, SCM)は、外科チームと共に患者を共同で管理するエビデンスベースのモデルである。
SCMナビゲータは、患者をSCMに適切、不適切、あるいはおそらく適切と分類した。
配備以降、6,193件の患者が入院し、うち1,582件(23%)が入院相談に推薦された。
- 参考スコア(独自算出の注目度): 3.381441580878978
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Surgical co-management (SCM) is an evidence-based model in which hospitalists jointly manage medically complex perioperative patients alongside surgical teams. Despite its clinical and financial value, SCM is limited by the need to manually identify eligible patients. To determine whether SCM triage can be automated, we conducted a prospective, unblinded study at Stanford Health Care in which an LLM-based, electronic health record (EHR)-integrated triage tool (SCM Navigator) provided SCM recommendations followed by physician review. Using pre-operative documentation, structured data, and clinical criteria for perioperative morbidity, SCM Navigator categorized patients as appropriate, not appropriate, or possibly appropriate for SCM. Faculty indicated their clinical judgment and provided free-text feedback when they disagreed. Sensitivity, specificity, positive predictive value, and negative predictive value were measured using physician determinations as a reference. Free-text reasons were thematically categorized, and manual chart review was conducted on all false-negative cases and 30 randomly selected cases from the largest false-positive category. Since deployment, 6,193 cases have been triaged, of which 1,582 (23%) were recommended for hospitalist consultation. SCM Navigator displayed high sensitivity (0.94, 95% CI 0.91-0.96) and moderate specificity (0.74, 95% CI 0.71-0.77). Post-hoc chart review suggested most discrepancies reflect modifiable gaps in clinical criteria, institutional workflow, or physician practice variability rather than LLM misclassification, which accounted for 2 of 19 (11%) false-negative cases. These findings demonstrate that an LLM-powered, EHR-integrated, human-in-the-loop AI system can accurately and safely triage surgical patients for SCM, and that AI-enabled screening tools can augment and potentially automate time-intensive clinical workflows.
- Abstract(参考訳): 外科的共同管理(英: surgery co-management, SCM)は、外科チームとともに、医療的に複雑な周術期患者を共同で管理するエビデンスベースのモデルである。
臨床的、経済的価値にもかかわらず、SCMは、手動で資格のある患者を特定する必要性によって制限されている。
SCMトリアージが自動化可能かどうかを判断するため、Stanford Health Careにおいて、LSMベースの電子健康記録統合トリアージツール(SCM Navigator)がSCM勧告を提示し、医師レビューを行った。
SCMナビゲータは、術前の文書、構造化データ、周術期の致死率に関する臨床基準を用いて、患者を適切な、適切でない、あるいはSCMに適していると分類した。
学部は臨床判断を示し、意見の相違により自由テキストのフィードバックを提供した。
医師の判断を基準として,感度,特異性,正の予測値,負の予測値を測定した。
フリーテキストの理由を主題的に分類し, 最大偽陽性カテゴリーのすべての偽陰性症例と30件のランダム選択症例について手作業によるチャートレビューを行った。
配備以降、6,193件の患者が入院し、うち1,582件(23%)が入院相談に推薦された。
SCMナビゲータは高い感度 (0.94, 95% CI 0.91-0.96) と適度な特異性 (0.74, 95% CI 0.71-0.77) を示した。
ポストホックチャートでは, 臨床基準, 機関のワークフロー, 医師の実践の多様性に違いがみられ, 偽陰性症例は19例中2例 (11%) であった。
以上の結果から,LLMによるERH統合型ヒトインザループ型AIシステムは外科手術患者をSCMで正確に安全にトリアージし,AI対応スクリーニングツールが時間集約的な臨床ワークフローを増強し,自動化する可能性が示唆された。
関連論文リスト
- MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences [50.71326426975699]
MedArenaは医療用大規模言語モデル(LLM)のためのインタラクティブな評価プラットフォームである。
MedArenaは、2つのランダムに選択されたモデルからの応答を表示し、ユーザが好みのレスポンスを選択するように要求する。
2025年11月1日までに12台のLLMで収集された1571の選好のうち、ジェミニ2.0フラッシュシンキング、ジェミニ2.5プロ、GPT-4oがブラッドリー・テリーのレーティングで上位3モデルとなった。
論文 参考訳(メタデータ) (2026-03-13T22:30:26Z) - Machine Learning Based Prediction of Surgical Outcomes in Chronic Rhinosinusitis from Clinical Data [1.5122833700794007]
慢性副鼻腔炎(CRS)はQoL(Quality of Life)と社会的コストにかなりの負担を負う。
本研究では,CRSの手術効果を予測するための教師付き機械学習モデルの評価を行った。
論文 参考訳(メタデータ) (2026-02-19T22:47:50Z) - Patient-Centered Summarization Framework for AI Clinical Summarization: A Mixed-Methods Design [23.21070690395588]
患者中心サマリ(PCS)における人工知能(AI)臨床要約タスクの新しい標準を提案する。
本研究の目的は,患者価値を捉え,臨床的有用性を確保するためのPCS作成フレームワークを開発することである。
5つのオープンソース LLM がゼロショットプロンプトと少数ショットプロンプトを使用して72のコンサルテーションの要約を生成する。
論文 参考訳(メタデータ) (2025-10-31T15:08:18Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - LGE-Guided Cross-Modality Contrastive Learning for Gadolinium-Free Cardiomyopathy Screening in Cine CMR [51.11296719862485]
CMRを用いたガドリニウムフリー心筋症スクリーニングのためのコントラシブラーニングおよびクロスモーダルアライメントフレームワークを提案する。
CMRとLate Gadolinium Enhancement (LGE) 配列の潜伏空間を整列させることにより, 本モデルでは線維症特異的な病理組織をCMR埋め込みにエンコードする。
論文 参考訳(メタデータ) (2025-08-23T07:21:23Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。