論文の概要: Grounding Large Language Models in Clinical Evidence: A Retrieval-Augmented Generation System for Querying UK NICE Clinical Guidelines
- arxiv url: http://arxiv.org/abs/2510.02967v1
- Date: Fri, 03 Oct 2025 12:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.388132
- Title: Grounding Large Language Models in Clinical Evidence: A Retrieval-Augmented Generation System for Querying UK NICE Clinical Guidelines
- Title(参考訳): 臨床エビデンスにおける大規模言語モデルの構築:英国NICE臨床ガイドライン検索のための検索補助生成システム
- Authors: Matthew Lewis, Samuel Thio, Richard JB Dobson, Spiros Denaxas,
- Abstract要約: 本稿では,Large Language Models (LLMs) を用いたNICE (National Institute for Health and Care Excellence) 臨床ガイドラインを検索するための検索型生成システムの開発と評価について述べる。
このシステムの検索アーキテクチャは,300のガイドラインから抽出した10,195個のテキストチャンクのデータベースに対して,ハイブリッドな埋め込み機構によって構成されている。
平均相反ランク(MRR)が0.814、第1チャンクで81%、検索チャンクで99.1%のリコールが7901クエリで評価されている。
- 参考スコア(独自算出の注目度): 1.9615061725959186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the development and evaluation of a Retrieval-Augmented Generation (RAG) system for querying the United Kingdom's National Institute for Health and Care Excellence (NICE) clinical guidelines using Large Language Models (LLMs). The extensive length and volume of these guidelines can impede their utilisation within a time-constrained healthcare system, a challenge this project addresses through the creation of a system capable of providing users with precisely matched information in response to natural language queries. The system's retrieval architecture, composed of a hybrid embedding mechanism, was evaluated against a database of 10,195 text chunks derived from three hundred guidelines. It demonstrates high performance, with a Mean Reciprocal Rank (MRR) of 0.814, a Recall of 81% at the first chunk and of 99.1% within the top ten retrieved chunks, when evaluated on 7901 queries. The most significant impact of the RAG system was observed during the generation phase. When evaluated on a manually curated dataset of seventy question-answer pairs, RAG-enhanced models showed substantial gains in performance. Faithfulness, the measure of whether an answer is supported by the source text, was increased by 64.7 percentage points to 99.5% for the RAG-enhanced O4-Mini model and significantly outperformed the medical-focused Meditron3-8B LLM, which scored 43%. This, combined with a perfect Context Precision score of 1 for all RAG-enhanced models, confirms the system's ability to prevent information fabrication by grounding its answers in relevant source material. This study thus establishes RAG as an effective, reliable, and scalable approach for applying generative AI in healthcare, enabling cost-effective access to medical guidelines.
- Abstract(参考訳): 本稿では,大言語モデル (LLMs) を用いたNICE(National Institute for Health and Care Excellence) 臨床ガイドラインを問合せするためのRAG(Retrieval-Augmented Generation)システムの開発と評価を行う。
これらのガイドラインの広範にわたる長さと容積は、時間制限された医療システム内での利用を妨げる可能性がある。この課題は、自然言語クエリに応答して、ユーザが正確にマッチした情報を提供するシステムを作成することで、このプロジェクトに対処する。
このシステムの検索アーキテクチャは,300のガイドラインから抽出した10,195個のテキストチャンクのデータベースに対して,ハイブリッドな埋め込み機構によって構成されている。
平均相反ランク(MRR)が0.814、第1チャンクで81%、検索チャンクで99.1%のリコールが7901クエリで評価されている。
RAGシステムの最も大きな影響は、生成段階で観察された。
70組の質問応答対を手作業で収集したデータセットで評価すると,RAG強化モデルの性能は著しく向上した。
回答が原文で支持されるかどうかの尺度であるFhithfulnessは、RAG-enhanced O4-Miniモデルでは64.7ポイントから99.5%に増加し、医療に焦点を当てたMeditron3-8B LLMでは43%と大幅に上回った。
これは、全てのRAG強化モデルに対して1の完全なコンテキスト精度スコアと組み合わせることで、関連する資料に回答を根拠にすることで、情報生成を防止するシステムの能力を確認する。
そこで本研究では,RAGを医療におけるジェネレーティブAIの適用のための,効果的で信頼性の高いスケーラブルなアプローチとして確立し,医療ガイドラインへの費用対効果を実現する。
関連論文リスト
- EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Agentic large language models improve retrieval-based radiology question answering [4.208637377704778]
本稿では,大規模言語モデル(LLM)を自律的に分解可能なエージェントRAGフレームワークを提案する。
LLMはRadiopaedia.orgから標的臨床証拠を反復的に回収し、証拠に基づく反応を動的に合成する。
エージェント検索により、ゼロショットプロンプトや従来のオンラインRAGよりも平均診断精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-08-01T16:18:52Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge [40.49917730563565]
ESGeniusは、環境、社会、ガバナンス(ESG)における大規模言語モデル(LLM)の熟練度の評価と向上のための総合的なベンチマークである。
ESGenius-QA (i) ESGenius-QA (i) ESGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-Corpus (i) ESGenius-Corpus (i) ESGenius-Corpusは231の基本的なフレームワーク、標準、レポート、レコメンデーションドキュメントを、7つの権威あるソースから収集した。
論文 参考訳(メタデータ) (2025-06-02T13:19:09Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Enhanced Electronic Health Records Text Summarization Using Large Language Models [0.0]
このプロジェクトは、臨床が優先する、焦点を絞った要約を生成するシステムを作成することで、以前の作業の上に構築される。
提案システムでは,Flan-T5モデルを用いて,臨床専門のトピックに基づいた調整されたERHサマリーを生成する。
論文 参考訳(メタデータ) (2024-10-12T19:36:41Z) - Benchmarking Retrieval-Augmented Generation for Medicine [30.390132015614128]
大規模言語モデル(LLM)は、幅広い医療質問応答(QA)タスクにおいて最先端のパフォーマンスを達成した。
Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。
我々は、5つの医療QAデータセットから7,663の質問を含む第一種ベンチマークであるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。
論文 参考訳(メタデータ) (2024-02-20T17:44:06Z) - Development and Testing of Retrieval Augmented Generation in Large
Language Models -- A Case Study Report [2.523433459887027]
Retrieval Augmented Generation (RAG)は、大規模言語モデル(LLM)におけるドメイン知識をカスタマイズするための有望なアプローチとして出現する。
LLM-RAGモデルを35の術前ガイドラインを用いて開発し,人為的反応に対して試験を行った。
このモデルでは平均15~20秒で回答が生成され、人間の要求する10分よりもはるかに速くなった。
論文 参考訳(メタデータ) (2024-01-29T06:49:53Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。