論文の概要: Real-world Deployment and Evaluation of PErioperative AI CHatbot (PEACH) -- a Large Language Model Chatbot for Perioperative Medicine
- arxiv url: http://arxiv.org/abs/2412.18096v1
- Date: Tue, 24 Dec 2024 02:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:20.554834
- Title: Real-world Deployment and Evaluation of PErioperative AI CHatbot (PEACH) -- a Large Language Model Chatbot for Perioperative Medicine
- Title(参考訳): 周術期医療用大規模言語モデルチャットボットPEACH(PEACH)の実世界展開と評価
- Authors: Yu He Ke, Liyuan Jin, Kabilan Elangovan, Bryan Wen Xi Ong, Chin Yang Oh, Jacqueline Sim, Kenny Wei-Tsen Loh, Chai Rick Soh, Jonathan Ming Hua Cheng, Aaron Kwang Yang Lee, Daniel Shu Wei Ting, Nan Liu, Hairil Rizal Abdullah,
- Abstract要約: 大規模言語モデル(LLM)は、特に複雑なドメイン固有のタスクのために、医療において強力なツールとして登場しています。
本研究では,PEACH(PEACH:PErioperative AI atbot)の開発と評価について述べる。
- 参考スコア(独自算出の注目度): 2.0497272891338536
- License:
- Abstract: Large Language Models (LLMs) are emerging as powerful tools in healthcare, particularly for complex, domain-specific tasks. This study describes the development and evaluation of the PErioperative AI CHatbot (PEACH), a secure LLM-based system integrated with local perioperative guidelines to support preoperative clinical decision-making. PEACH was embedded with 35 institutional perioperative protocols in the secure Claude 3.5 Sonet LLM framework within Pair Chat (developed by Singapore Government) and tested in a silent deployment with real-world data. Accuracy, safety, and usability were assessed. Deviations and hallucinations were categorized based on potential harm, and user feedback was evaluated using the Technology Acceptance Model (TAM). Updates were made after the initial silent deployment to amend one protocol. In 240 real-world clinical iterations, PEACH achieved a first-generation accuracy of 97.5% (78/80) and an overall accuracy of 96.7% (232/240) across three iterations. The updated PEACH demonstrated improved accuracy of 97.9% (235/240), with a statistically significant difference from the null hypothesis of 95% accuracy (p = 0.018, 95% CI: 0.952-0.991). Minimal hallucinations and deviations were observed (both 1/240 and 2/240, respectively). Clinicians reported that PEACH expedited decisions in 95% of cases, and inter-rater reliability ranged from kappa 0.772-0.893 within PEACH and 0.610-0.784 among attendings. PEACH is an accurate, adaptable tool that enhances consistency and efficiency in perioperative decision-making. Future research should explore its scalability across specialties and its impact on clinical outcomes.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に複雑なドメイン固有のタスクのために、医療において強力なツールとして登場しています。
本研究では,PEACH(PErioperative AI CHatbot, PEACH)の開発と評価について述べる。
PEACHはセキュアなClaude 3.5 Sonet LLMフレームワーク(シンガポール政府によって開発された)に35の機関的周術的プロトコルが組み込まれ、現実世界のデータによる静かな展開でテストされた。
正確さ、安全性、ユーザビリティが評価された。
潜在的な害から逸脱と幻覚を分類し,TAM(Technology Acceptance Model)を用いてユーザフィードバックを評価した。
アップデートは、最初のサイレントなデプロイで1つのプロトコルを修正した後に行われた。
240回の実際の臨床イテレーションにおいて、PEACHは97.5%(78/80)の第一世代精度と3回のイテレーションで96.7%(232/240)の総合精度を達成した。
PEACH は 97.9% (235/240) の精度を向上し、95% の精度の null 仮説 (p = 0.018, 95% CI: 0.952-0.991) と統計的に有意な差を示した。
極小幻覚と偏差が観察された(それぞれ1/240と2/240)。
臨床医は、PEACHが95%のケースで決定を早めたと報告し、PAACH内のKappa 0.772-0.893から参加者の0.610-0.784まで幅広い信頼性を示した。
PEACHは、周術期意思決定における一貫性と効率を高める正確で適応可能なツールである。
今後の研究は、専門分野にわたるスケーラビリティと臨床結果への影響を探求する。
関連論文リスト
- Artificial Intelligence-Based Triaging of Cutaneous Melanocytic Lesions [0.8864540224289991]
患者数の増加とより包括的な診断の必要性により、病理学者は作業負荷の増大に直面している。
われわれは,全スライド画像に基づいて皮膚メラノサイト性病変をトリアージする人工知能(AI)モデルを開発した。
論文 参考訳(メタデータ) (2024-10-14T13:49:04Z) - Detection of subclinical atherosclerosis by image-based deep learning on chest x-ray [86.38767955626179]
460胸部X線で冠状動脈カルシウム(CAC)スコアを予測する深層学習アルゴリズムを開発した。
AICACモデルの診断精度は, 曲線下領域(AUC)で評価された。
論文 参考訳(メタデータ) (2024-03-27T16:56:14Z) - Bridging AI and Clinical Practice: Integrating Automated Sleep Scoring
Algorithm with Uncertainty-Guided Physician Review [0.0]
本研究は,不確実性推定手法を取り入れた自動睡眠検査アルゴリズムの臨床的有用性を高めることを目的とする。
13のオープンアクセスデータベースからの合計19578のPSGを使用して、最先端の睡眠スコアアルゴリズムであるU-Sleepをトレーニングした。
論文 参考訳(メタデータ) (2023-12-22T15:58:09Z) - B-Learner: Quasi-Oracle Bounds on Heterogeneous Causal Effects Under
Hidden Confounding [51.74479522965712]
本稿では,B-Learnerと呼ばれるメタラーナーを提案する。
我々は、その推定が有効で、鋭く、効率的であることを証明し、既存の方法よりも一般的な条件下で構成推定器に対して準オーラル特性を持つことを示した。
論文 参考訳(メタデータ) (2023-04-20T18:07:19Z) - DeepCOVID-Fuse: A Multi-modality Deep Learning Model Fusing Chest
X-Radiographs and Clinical Variables to Predict COVID-19 Risk Levels [8.593516170110203]
DeepCOVID-Fuseは、新型コロナウイルス患者のリスクレベルを予測するディープラーニング融合モデルである。
CXRと臨床変数で訓練されたDeepCOVID-Fuseの精度は0.658であり、AUCは0.842である。
論文 参考訳(メタデータ) (2023-01-20T20:54:25Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - MOMO -- Deep Learning-driven classification of external DICOM studies
for PACS archivation [0.9498643829295902]
MOMO(Modality Mapping and Orchestration)は、このマッピングプロセスを自動化するためのディープラーニングベースのアプローチである。
既存のラベルを持つ11,934個の画像シリーズが、地元の病院のPACSデータベースから検索され、ニューラルネットワークを訓練した。
MOMOは精度の大きなマージンと予測力(99.29%の予測力、92.71%の精度、2.63%のマイナーエラー)で上回る。
論文 参考訳(メタデータ) (2021-12-01T17:16:41Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors
and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。
SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。
我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-20T21:47:28Z) - Improving Emergency Department ESI Acuity Assignment Using Machine
Learning and Clinical Natural Language Processing [12.032786684457385]
166,175人を対象に, トリアージプロセスのためのMLモデル(KATE)を開発した。
KATEは、看護師(59.8%)と平均的な個別臨床医(75.3%)と比較して、視力の割り当てを75.9%と予測した。
2 と 3 の明度割り当ての境界では、KATE は 80% の精度で 93.2% 高く、41.4% のトリアージ看護師 (p-value 0.0001) は 41.4% の精度であった。
論文 参考訳(メタデータ) (2020-03-29T20:18:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。