論文の概要: Clean & Clear: Feasibility of Safe LLM Clinical Guidance
- arxiv url: http://arxiv.org/abs/2503.20953v1
- Date: Wed, 26 Mar 2025 19:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:27.186213
- Title: Clean & Clear: Feasibility of Safe LLM Clinical Guidance
- Title(参考訳): クリーン&クリア: 安全なLCM臨床ガイダンスの可能性
- Authors: Julia Ive, Felix Jozsa, Nick Jackson, Paulina Bondaronek, Ciaran Scott Hill, Richard Dobson,
- Abstract要約: 臨床ガイドラインは、現代医療における安全なエビデンスベースの医療の中心である。
オープンウェイトなLlama-3.1-8B LLMを開発した。
73%の回答が関連性が高いと評価され,臨床状況の理解が強かった。
- 参考スコア(独自算出の注目度): 2.0194749607835014
- License:
- Abstract: Background: Clinical guidelines are central to safe evidence-based medicine in modern healthcare, providing diagnostic criteria, treatment options and monitoring advice for a wide range of illnesses. LLM-empowered chatbots have shown great promise in Healthcare Q&A tasks, offering the potential to provide quick and accurate responses to medical inquiries. Our main objective was the development and preliminary assessment of an LLM-empowered chatbot software capable of reliably answering clinical guideline questions using University College London Hospital (UCLH) clinical guidelines. Methods: We used the open-weight Llama-3.1-8B LLM to extract relevant information from the UCLH guidelines to answer questions. Our approach highlights the safety and reliability of referencing information over its interpretation and response generation. Seven doctors from the ward assessed the chatbot's performance by comparing its answers to the gold standard. Results: Our chatbot demonstrates promising performance in terms of relevance, with ~73% of its responses rated as very relevant, showcasing a strong understanding of the clinical context. Importantly, our chatbot achieves a recall of 0.98 for extracted guideline lines, substantially minimising the risk of missing critical information. Approximately 78% of responses were rated satisfactory in terms of completeness. A small portion (~14.5%) contained minor unnecessary information, indicating occasional lapses in precision. The chatbot' showed high efficiency, with an average completion time of 10 seconds, compared to 30 seconds for human respondents. Evaluation of clinical reasoning showed that 72% of the chatbot's responses were without flaws. Our chatbot demonstrates significant potential to speed up and improve the process of accessing locally relevant clinical information for healthcare professionals.
- Abstract(参考訳): 背景: 臨床ガイドラインは、近代医療における安全なエビデンスベースの医療の中心であり、幅広い疾患に対する診断基準、治療オプション、モニタリングアドバイスを提供する。
LLMを利用したチャットボットは、ヘルスケアのQ&Aタスクにおいて大きな可能性を秘めている。
本研究の目的は,大学ロンドン病院(UCLH)の臨床ガイドラインを用いて,臨床ガイドラインに確実に回答できるLLMを利用したチャットボットソフトウェアの開発と予備評価であった。
方法: オープンウェイトLlama-3.1-8B LLMを用いて, UCLHガイドラインから関連する情報を抽出し, 質問に答えた。
本手法では,その解釈と応答生成に関する情報参照の安全性と信頼性を強調した。
病棟の医師7人は、回答を金の基準と比較することで、チャットボットのパフォーマンスを評価した。
結果:我々のチャットボットは,関連性の観点から有望なパフォーマンスを示し,約73%の回答が極めて関連性が高いと評価され,臨床状況に対する深い理解を示している。
重要なこととして,我々のチャットボットは,抽出したガイドラインラインに対する0.98のリコールを達成し,重要な情報不足のリスクを著しく低減する。
回答の約78%が満足度で評価された。
わずかな部分(14.5%)はわずかな不要な情報を含んでおり、精度の低下が時々見られた。
チャットボットは, 平均完了時間は10秒であり, 人間の回答では30秒であった。
臨床評価の結果,チャットボットの反応の72%に欠陥がみられなかった。
我々のチャットボットは、医療従事者にとって、局所的な臨床情報へのアクセスをスピードアップし、改善する大きな可能性を秘めている。
関連論文リスト
- Prompt Engineering a Schizophrenia Chatbot: Utilizing a Multi-Agent Approach for Enhanced Compliance with Prompt Instructions [0.0699049312989311]
統合失調症の患者は、しばしば認知障害を伴い、自分の状態について学ぶ能力を妨げることがある。
大規模言語モデル(LLM)は、トピックのメンタルヘルス情報をよりアクセシビリティとエンゲージメントを高める可能性を秘めているが、それらのブラックボックスの性質は倫理と安全に関する懸念を喚起する。
論文 参考訳(メタデータ) (2024-10-10T09:49:24Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Building Trust in Mental Health Chatbots: Safety Metrics and LLM-Based Evaluation Tools [13.386012271835039]
100のベンチマーク質問と理想的な回答を備えた評価フレームワークを作成しました。
このフレームワークはメンタルヘルスの専門家によって検証され、GPT-3.5ベースのチャットボットでテストされた。
論文 参考訳(メタデータ) (2024-08-03T19:57:49Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - CataractBot: An LLM-Powered Expert-in-the-Loop Chatbot for Cataract Patients [5.649965979758816]
CataractBot は LLM を用いて即座に白内障手術に関連する質問に答え、知識ベースをクエリし、専門家が検証した応答を非同期に提供する。
CataractBotは、49人の患者とアテンダント、4人の医師、2人の患者コーディネーターによる初期展開調査で、任意のアクセシビリティを提供し、時間を節約し、さまざまなリテラシーレベルを調整し、患者と医師の間にプライバシー層を追加する可能性を示した。
論文 参考訳(メタデータ) (2024-02-07T07:07:02Z) - K-QA: A Real-World Medical Q&A Benchmark [12.636564634626422]
K-QA(K-QA)は、K Health上での実際の会話から発せられる1,212の患者質問を含むデータセットである。
我々は,K-QAのサブセットを自己完結文に分解するために,内科医のパネルを用いて回答し,手動で分解する。
我々は、いくつかの最先端モデルと、コンテキスト内学習と医学指向の拡張検索スキームの効果を評価した。
論文 参考訳(メタデータ) (2024-01-25T20:11:04Z) - LongHealth: A Question Answering Benchmark with Long Clinical Documents [36.05587855811346]
各種疾患20例を対象とし,LongHealthベンチマークを報告する。
このベンチマークは、情報抽出、否定、ソートという3つのカテゴリで400の多重選択の質問でLSMに挑戦する。
また,OpenAIのプロプライエタリかつコスト効率のよいGPT-3.5 Turboも比較検討した。
論文 参考訳(メタデータ) (2024-01-25T19:57:00Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。