論文の概要: Real-world Deployment and Evaluation of PErioperative AI CHatbot (PEACH) -- a Large Language Model Chatbot for Perioperative Medicine
- arxiv url: http://arxiv.org/abs/2412.18096v1
- Date: Tue, 24 Dec 2024 02:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:20.554834
- Title: Real-world Deployment and Evaluation of PErioperative AI CHatbot (PEACH) -- a Large Language Model Chatbot for Perioperative Medicine
- Title(参考訳): 周術期医療用大規模言語モデルチャットボットPEACH(PEACH)の実世界展開と評価
- Authors: Yu He Ke, Liyuan Jin, Kabilan Elangovan, Bryan Wen Xi Ong, Chin Yang Oh, Jacqueline Sim, Kenny Wei-Tsen Loh, Chai Rick Soh, Jonathan Ming Hua Cheng, Aaron Kwang Yang Lee, Daniel Shu Wei Ting, Nan Liu, Hairil Rizal Abdullah,
- Abstract要約: 大規模言語モデル(LLM)は、特に複雑なドメイン固有のタスクのために、医療において強力なツールとして登場しています。
本研究では,PEACH(PEACH:PErioperative AI atbot)の開発と評価について述べる。
- 参考スコア(独自算出の注目度): 2.0497272891338536
- License:
- Abstract: Large Language Models (LLMs) are emerging as powerful tools in healthcare, particularly for complex, domain-specific tasks. This study describes the development and evaluation of the PErioperative AI CHatbot (PEACH), a secure LLM-based system integrated with local perioperative guidelines to support preoperative clinical decision-making. PEACH was embedded with 35 institutional perioperative protocols in the secure Claude 3.5 Sonet LLM framework within Pair Chat (developed by Singapore Government) and tested in a silent deployment with real-world data. Accuracy, safety, and usability were assessed. Deviations and hallucinations were categorized based on potential harm, and user feedback was evaluated using the Technology Acceptance Model (TAM). Updates were made after the initial silent deployment to amend one protocol. In 240 real-world clinical iterations, PEACH achieved a first-generation accuracy of 97.5% (78/80) and an overall accuracy of 96.7% (232/240) across three iterations. The updated PEACH demonstrated improved accuracy of 97.9% (235/240), with a statistically significant difference from the null hypothesis of 95% accuracy (p = 0.018, 95% CI: 0.952-0.991). Minimal hallucinations and deviations were observed (both 1/240 and 2/240, respectively). Clinicians reported that PEACH expedited decisions in 95% of cases, and inter-rater reliability ranged from kappa 0.772-0.893 within PEACH and 0.610-0.784 among attendings. PEACH is an accurate, adaptable tool that enhances consistency and efficiency in perioperative decision-making. Future research should explore its scalability across specialties and its impact on clinical outcomes.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に複雑なドメイン固有のタスクのために、医療において強力なツールとして登場しています。
本研究では,PEACH(PErioperative AI CHatbot, PEACH)の開発と評価について述べる。
PEACHはセキュアなClaude 3.5 Sonet LLMフレームワーク(シンガポール政府によって開発された)に35の機関的周術的プロトコルが組み込まれ、現実世界のデータによる静かな展開でテストされた。
正確さ、安全性、ユーザビリティが評価された。
潜在的な害から逸脱と幻覚を分類し,TAM(Technology Acceptance Model)を用いてユーザフィードバックを評価した。
アップデートは、最初のサイレントなデプロイで1つのプロトコルを修正した後に行われた。
240回の実際の臨床イテレーションにおいて、PEACHは97.5%(78/80)の第一世代精度と3回のイテレーションで96.7%(232/240)の総合精度を達成した。
PEACH は 97.9% (235/240) の精度を向上し、95% の精度の null 仮説 (p = 0.018, 95% CI: 0.952-0.991) と統計的に有意な差を示した。
極小幻覚と偏差が観察された(それぞれ1/240と2/240)。
臨床医は、PEACHが95%のケースで決定を早めたと報告し、PAACH内のKappa 0.772-0.893から参加者の0.610-0.784まで幅広い信頼性を示した。
PEACHは、周術期意思決定における一貫性と効率を高める正確で適応可能なツールである。
今後の研究は、専門分野にわたるスケーラビリティと臨床結果への影響を探求する。
関連論文リスト
- Primary Care Diagnoses as a Reliable Predictor for Orthopedic Surgical Interventions [0.10624941710159722]
リファラルワークフローの非効率性は、最適な患者と高い医療費に寄与する。
本研究では,プライマリケアの診断項目に基づく手続き的ニーズの予測の可能性について検討した。
論文 参考訳(メタデータ) (2025-02-06T17:15:12Z) - Leveraging Large Language Models to Enhance Machine Learning Interpretability and Predictive Performance: A Case Study on Emergency Department Returns for Mental Health Patients [2.3769374446083735]
救急部門(ED)は精神状態の回復が大きな医療負担となり、患者の24-27%が30日以内に帰国する。
大規模言語モデル(LLM)と機械学習を統合することにより、EDメンタルヘルスリターンリスクモデルの予測精度と臨床的解釈性が向上するか否かを評価する。
論文 参考訳(メタデータ) (2025-01-21T15:41:20Z) - Unlocking Historical Clinical Trial Data with ALIGN: A Compositional Large Language Model System for Medical Coding [44.01429184037945]
自動ゼロショット医療符号化のための新しい合成LLMシステムであるALIGNを紹介する。
我々は、ALIGNを解剖学的治療化学(ATC)と医学史用語に調和させ、MedDRA(Medicical Dictionary for Regulatory Activity)コードに評価した。
論文 参考訳(メタデータ) (2024-11-20T09:59:12Z) - Artificial Intelligence-Based Triaging of Cutaneous Melanocytic Lesions [0.8864540224289991]
患者数の増加とより包括的な診断の必要性により、病理学者は作業負荷の増大に直面している。
われわれは,全スライド画像に基づいて皮膚メラノサイト性病変をトリアージする人工知能(AI)モデルを開発した。
論文 参考訳(メタデータ) (2024-10-14T13:49:04Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - Bridging AI and Clinical Practice: Integrating Automated Sleep Scoring
Algorithm with Uncertainty-Guided Physician Review [0.0]
本研究は,不確実性推定手法を取り入れた自動睡眠検査アルゴリズムの臨床的有用性を高めることを目的とする。
13のオープンアクセスデータベースからの合計19578のPSGを使用して、最先端の睡眠スコアアルゴリズムであるU-Sleepをトレーニングした。
論文 参考訳(メタデータ) (2023-12-22T15:58:09Z) - DeepCOVID-Fuse: A Multi-modality Deep Learning Model Fusing Chest
X-Radiographs and Clinical Variables to Predict COVID-19 Risk Levels [8.593516170110203]
DeepCOVID-Fuseは、新型コロナウイルス患者のリスクレベルを予測するディープラーニング融合モデルである。
CXRと臨床変数で訓練されたDeepCOVID-Fuseの精度は0.658であり、AUCは0.842である。
論文 参考訳(メタデータ) (2023-01-20T20:54:25Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - Ensemble model for pre-discharge icd10 coding prediction [45.82374977939355]
正確なコード予測のための複数の臨床データソースを組み込んだアンサンブルモデルを提案する。
平均精度は0.73および0.58、F1スコアは0.56および0.35、患者および外来データセットの主診断予測では0.71および0.4のマルチラベル分類精度を得る。
論文 参考訳(メタデータ) (2020-12-16T07:02:56Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Automated Quantification of CT Patterns Associated with COVID-19 from
Chest CT [48.785596536318884]
提案法は,非造影胸部CTを入力として,病変,肺,葉を3次元に分割する。
この方法では、肺の重症度と葉の関与度を2つの組み合わせて測定し、COVID-19の異常度と高不透明度の存在度を定量化する。
このアルゴリズムの評価は、カナダ、ヨーロッパ、米国からの200人の参加者(感染者100人、健康管理100人)のCTで報告されている。
論文 参考訳(メタデータ) (2020-04-02T21:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。