Fugu-MT 論文翻訳(概要): Real-world Deployment and Evaluation of PErioperative AI CHatbot (PEACH) -- a Large Language Model Chatbot for Perioperative Medicine

論文の概要: Real-world Deployment and Evaluation of PErioperative AI CHatbot (PEACH) -- a Large Language Model Chatbot for Perioperative Medicine

arxiv url: http://arxiv.org/abs/2412.18096v1
Date: Tue, 24 Dec 2024 02:14:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 19:23:17.628662
Title: Real-world Deployment and Evaluation of PErioperative AI CHatbot (PEACH) -- a Large Language Model Chatbot for Perioperative Medicine
Title（参考訳）: 周術期医療用大規模言語モデルチャットボットPEACH(PEACH)の実世界展開と評価
Authors: Yu He Ke, Liyuan Jin, Kabilan Elangovan, Bryan Wen Xi Ong, Chin Yang Oh, Jacqueline Sim, Kenny Wei-Tsen Loh, Chai Rick Soh, Jonathan Ming Hua Cheng, Aaron Kwang Yang Lee, Daniel Shu Wei Ting, Nan Liu, Hairil Rizal Abdullah,
Abstract要約: 大規模言語モデル(LLM)は、特に複雑なドメイン固有のタスクのために、医療において強力なツールとして登場しています。本研究では,PEACH(PEACH:PErioperative AI atbot)の開発と評価について述べる。
参考スコア（独自算出の注目度）: 2.0497272891338536
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Large Language Models (LLMs) are emerging as powerful tools in healthcare, particularly for complex, domain-specific tasks. This study describes the development and evaluation of the PErioperative AI CHatbot (PEACH), a secure LLM-based system integrated with local perioperative guidelines to support preoperative clinical decision-making. PEACH was embedded with 35 institutional perioperative protocols in the secure Claude 3.5 Sonet LLM framework within Pair Chat (developed by Singapore Government) and tested in a silent deployment with real-world data. Accuracy, safety, and usability were assessed. Deviations and hallucinations were categorized based on potential harm, and user feedback was evaluated using the Technology Acceptance Model (TAM). Updates were made after the initial silent deployment to amend one protocol. In 240 real-world clinical iterations, PEACH achieved a first-generation accuracy of 97.5% (78/80) and an overall accuracy of 96.7% (232/240) across three iterations. The updated PEACH demonstrated improved accuracy of 97.9% (235/240), with a statistically significant difference from the null hypothesis of 95% accuracy (p = 0.018, 95% CI: 0.952-0.991). Minimal hallucinations and deviations were observed (both 1/240 and 2/240, respectively). Clinicians reported that PEACH expedited decisions in 95% of cases, and inter-rater reliability ranged from kappa 0.772-0.893 within PEACH and 0.610-0.784 among attendings. PEACH is an accurate, adaptable tool that enhances consistency and efficiency in perioperative decision-making. Future research should explore its scalability across specialties and its impact on clinical outcomes.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特に複雑なドメイン固有のタスクのために、医療において強力なツールとして登場しています。本研究では,PEACH(PErioperative AI CHatbot, PEACH)の開発と評価について述べる。 PEACHはセキュアなClaude 3.5 Sonet LLMフレームワーク(シンガポール政府によって開発された)に35の機関的周術的プロトコルが組み込まれ、現実世界のデータによる静かな展開でテストされた。正確さ、安全性、ユーザビリティが評価された。潜在的な害から逸脱と幻覚を分類し,TAM(Technology Acceptance Model)を用いてユーザフィードバックを評価した。アップデートは、最初のサイレントなデプロイで1つのプロトコルを修正した後に行われた。 240回の実際の臨床イテレーションにおいて、PEACHは97.5%(78/80)の第一世代精度と3回のイテレーションで96.7%(232/240)の総合精度を達成した。 PEACH は 97.9% (235/240) の精度を向上し、95% の精度の null 仮説 (p = 0.018, 95% CI: 0.952-0.991) と統計的に有意な差を示した。極小幻覚と偏差が観察された(それぞれ1/240と2/240)。臨床医は、PEACHが95%のケースで決定を早めたと報告し、PAACH内のKappa 0.772-0.893から参加者の0.610-0.784まで幅広い信頼性を示した。 PEACHは、周術期意思決定における一貫性と効率を高める正確で適応可能なツールである。今後の研究は、専門分野にわたるスケーラビリティと臨床結果への影響を探求する。

関連論文リスト

PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。 LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文参考訳（メタデータ） (2026-03-02T00:50:39Z)
LiveClin: A Live Clinical Benchmark without Leakage [50.45415584327275]
LiveClinは、実際の臨床実践を近似するために設計されたライブベンチマークである。本研究は,患者を臨床経過全体にわたる複雑なマルチモーダルな評価シナリオに転換する。 LiveClin上で26のモデルを評価すると、これらの実世界のシナリオの難しさが明らかとなり、最高性能のモデルではケース精度が35.7%に達した。
論文参考訳（メタデータ） (2026-02-18T03:59:46Z)
Explainable Admission-Level Predictive Modeling for Prolonged Hospital Stay in Elderly Populations: Challenges in Low- and Middle-Income Countries [65.4286079244589]
長期滞在期間 (pLoS) は, 院内感染のリスクに関連する重要な要因である。入院レベルの患者と病院の診療データを用いて, pLosの予測モデルを開発し, 解説する。
論文参考訳（メタデータ） (2026-01-07T23:35:24Z)
DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文参考訳（メタデータ） (2025-10-24T08:01:21Z)
Handcrafted vs. Deep Radiomics vs. Fusion vs. Deep Learning: A Comprehensive Review of Machine Learning -Based Cancer Outcome Prediction in PET and SPECT Imaging [0.7573820776203027]
この体系的なレビューは、2020年から2025年にかけて発行された226の研究を分析し、結果予測のためにPETまたはSPECTイメージングに機械学習を適用した。 PETベースの研究は、一般的にSPECTを用いた場合よりも優れており、おそらくは空間分解能と感度が高いためである。一般的な制限としては、階級不均衡の不十分な扱い、データ不足、人口の多様性の低さがあった。
論文参考訳（メタデータ） (2025-07-21T21:03:12Z)
MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。 MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文参考訳（メタデータ） (2025-05-26T22:55:49Z)
Explainable Anatomy-Guided AI for Prostate MRI: Foundation Models and In Silico Clinical Trials for Virtual Biopsy-based Risk Assessment [3.5408411348831232]
MRIによる前立腺癌(PCa)のリスク階層化のための,完全に自動化された,解剖学的に指導されたディープラーニングパイプラインを提案する。パイプラインは、前立腺とそのゾーンを軸方向のT2強調MRI上にセグメント化するためのnnU-Netモジュール、オプションの解剖学的先行と臨床データで3Dパッチに微調整されたDiceedPT Swin Transformer基盤モデルに基づく分類モジュール、決定駆動画像領域をローカライズする反ファクトなヒートマップを生成するVAE-GANフレームワークの3つの重要なコンポーネントを統合する。
論文参考訳（メタデータ） (2025-05-23T14:40:09Z)
Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文参考訳（メタデータ） (2025-05-23T14:06:42Z)
Urinary Tract Infection Detection in Digital Remote Monitoring: Strategies for Managing Participant-Specific Prediction Complexity [43.108040967674185]
尿路感染症(UTIs)は特に認知症(PLWD)の患者にとって重要な健康上の問題であるこの研究は、PLWDのUTIを検出する機械学習(ML)を利用した以前の研究に基づいている。
論文参考訳（メタデータ） (2025-02-18T12:01:55Z)
Primary Care Diagnoses as a Reliable Predictor for Orthopedic Surgical Interventions [0.10624941710159722]
リファラルワークフローの非効率性は、最適な患者と高い医療費に寄与する。本研究では,プライマリケアの診断項目に基づく手続き的ニーズの予測の可能性について検討した。
論文参考訳（メタデータ） (2025-02-06T17:15:12Z)
Leveraging Large Language Models to Enhance Machine Learning Interpretability and Predictive Performance: A Case Study on Emergency Department Returns for Mental Health Patients [2.3769374446083735]
救急部門(ED)は精神状態の回復が大きな医療負担となり、患者の24-27%が30日以内に帰国する。大規模言語モデル(LLM)と機械学習を統合することにより、EDメンタルヘルスリターンリスクモデルの予測精度と臨床的解釈性が向上するか否かを評価する。
論文参考訳（メタデータ） (2025-01-21T15:41:20Z)
Artificial Intelligence-Based Triaging of Cutaneous Melanocytic Lesions [0.8864540224289991]
患者数の増加とより包括的な診断の必要性により、病理学者は作業負荷の増大に直面している。われわれは,全スライド画像に基づいて皮膚メラノサイト性病変をトリアージする人工知能(AI)モデルを開発した。
論文参考訳（メタデータ） (2024-10-14T13:49:04Z)
Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。 iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文参考訳（メタデータ） (2024-07-10T19:17:23Z)
Bridging AI and Clinical Practice: Integrating Automated Sleep Scoring Algorithm with Uncertainty-Guided Physician Review [0.0]
本研究は,不確実性推定手法を取り入れた自動睡眠検査アルゴリズムの臨床的有用性を高めることを目的とする。 13のオープンアクセスデータベースからの合計19578のPSGを使用して、最先端の睡眠スコアアルゴリズムであるU-Sleepをトレーニングした。
論文参考訳（メタデータ） (2023-12-22T15:58:09Z)
Private, fair and accurate: Training large-scale, privacy-preserving AI models in medical imaging [47.99192239793597]
我々は,AIモデルのプライバシ保護トレーニングが,非プライベートトレーニングと比較して精度と公平性に与える影響を評価した。我々の研究は、実際の臨床データセットの困難な現実的な状況下では、診断深層学習モデルのプライバシー保護トレーニングは、優れた診断精度と公正さで可能であることを示しています。
論文参考訳（メタデータ） (2023-02-03T09:49:13Z)
DeepCOVID-Fuse: A Multi-modality Deep Learning Model Fusing Chest X-Radiographs and Clinical Variables to Predict COVID-19 Risk Levels [8.593516170110203]
DeepCOVID-Fuseは、新型コロナウイルス患者のリスクレベルを予測するディープラーニング融合モデルである。 CXRと臨床変数で訓練されたDeepCOVID-Fuseの精度は0.658であり、AUCは0.842である。
論文参考訳（メタデータ） (2023-01-20T20:54:25Z)
MOMO -- Deep Learning-driven classification of external DICOM studies for PACS archivation [0.9498643829295902]
MOMO(Modality Mapping and Orchestration)は、このマッピングプロセスを自動化するためのディープラーニングベースのアプローチである。既存のラベルを持つ11,934個の画像シリーズが、地元の病院のPACSデータベースから検索され、ニューラルネットワークを訓練した。 MOMOは精度の大きなマージンと予測力(99.29%の予測力、92.71%の精度、2.63%のマイナーエラー)で上回る。
論文参考訳（メタデータ） (2021-12-01T17:16:41Z)
Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文参考訳（メタデータ） (2021-11-18T00:43:41Z)
Ensemble model for pre-discharge icd10 coding prediction [45.82374977939355]
正確なコード予測のための複数の臨床データソースを組み込んだアンサンブルモデルを提案する。平均精度は0.73および0.58、F1スコアは0.56および0.35、患者および外来データセットの主診断予測では0.71および0.4のマルチラベル分類精度を得る。
論文参考訳（メタデータ） (2020-12-16T07:02:56Z)
UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。 UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。 UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文参考訳（メタデータ） (2020-10-22T02:28:11Z)
Automated Quantification of CT Patterns Associated with COVID-19 from Chest CT [48.785596536318884]
提案法は,非造影胸部CTを入力として,病変,肺,葉を3次元に分割する。この方法では、肺の重症度と葉の関与度を2つの組み合わせて測定し、COVID-19の異常度と高不透明度の存在度を定量化する。このアルゴリズムの評価は、カナダ、ヨーロッパ、米国からの200人の参加者(感染者100人、健康管理100人)のCTで報告されている。
論文参考訳（メタデータ） (2020-04-02T21:49:14Z)
Improving Emergency Department ESI Acuity Assignment Using Machine Learning and Clinical Natural Language Processing [12.032786684457385]
166,175人を対象に, トリアージプロセスのためのMLモデル(KATE)を開発した。 KATEは、看護師(59.8%)と平均的な個別臨床医(75.3%)と比較して、視力の割り当てを75.9%と予測した。 2 と 3 の明度割り当ての境界では、KATE は 80% の精度で 93.2% 高く、41.4% のトリアージ看護師 (p-value 0.0001) は 41.4% の精度であった。
論文参考訳（メタデータ） (2020-03-29T20:18:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。