Fugu-MT 論文翻訳(概要): Grounding Large Language Models in Clinical Evidence: A Retrieval-Augmented Generation System for Querying UK NICE Clinical Guidelines

論文の概要: Grounding Large Language Models in Clinical Evidence: A Retrieval-Augmented Generation System for Querying UK NICE Clinical Guidelines

arxiv url: http://arxiv.org/abs/2510.02967v1
Date: Fri, 03 Oct 2025 12:57:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-06 16:35:52.388132
Title: Grounding Large Language Models in Clinical Evidence: A Retrieval-Augmented Generation System for Querying UK NICE Clinical Guidelines
Title（参考訳）: 臨床エビデンスにおける大規模言語モデルの構築:英国NICE臨床ガイドライン検索のための検索補助生成システム
Authors: Matthew Lewis, Samuel Thio, Richard JB Dobson, Spiros Denaxas,
Abstract要約: 本稿では,Large Language Models (LLMs) を用いたNICE (National Institute for Health and Care Excellence) 臨床ガイドラインを検索するための検索型生成システムの開発と評価について述べる。このシステムの検索アーキテクチャは,300のガイドラインから抽出した10,195個のテキストチャンクのデータベースに対して,ハイブリッドな埋め込み機構によって構成されている。平均相反ランク(MRR)が0.814、第1チャンクで81%、検索チャンクで99.1%のリコールが7901クエリで評価されている。
参考スコア（独自算出の注目度）: 1.9615061725959186
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents the development and evaluation of a Retrieval-Augmented Generation (RAG) system for querying the United Kingdom's National Institute for Health and Care Excellence (NICE) clinical guidelines using Large Language Models (LLMs). The extensive length and volume of these guidelines can impede their utilisation within a time-constrained healthcare system, a challenge this project addresses through the creation of a system capable of providing users with precisely matched information in response to natural language queries. The system's retrieval architecture, composed of a hybrid embedding mechanism, was evaluated against a database of 10,195 text chunks derived from three hundred guidelines. It demonstrates high performance, with a Mean Reciprocal Rank (MRR) of 0.814, a Recall of 81% at the first chunk and of 99.1% within the top ten retrieved chunks, when evaluated on 7901 queries. The most significant impact of the RAG system was observed during the generation phase. When evaluated on a manually curated dataset of seventy question-answer pairs, RAG-enhanced models showed substantial gains in performance. Faithfulness, the measure of whether an answer is supported by the source text, was increased by 64.7 percentage points to 99.5% for the RAG-enhanced O4-Mini model and significantly outperformed the medical-focused Meditron3-8B LLM, which scored 43%. This, combined with a perfect Context Precision score of 1 for all RAG-enhanced models, confirms the system's ability to prevent information fabrication by grounding its answers in relevant source material. This study thus establishes RAG as an effective, reliable, and scalable approach for applying generative AI in healthcare, enabling cost-effective access to medical guidelines.
Abstract（参考訳）: 本稿では,大言語モデル (LLMs) を用いたNICE(National Institute for Health and Care Excellence) 臨床ガイドラインを問合せするためのRAG(Retrieval-Augmented Generation)システムの開発と評価を行う。これらのガイドラインの広範にわたる長さと容積は、時間制限された医療システム内での利用を妨げる可能性がある。この課題は、自然言語クエリに応答して、ユーザが正確にマッチした情報を提供するシステムを作成することで、このプロジェクトに対処する。このシステムの検索アーキテクチャは,300のガイドラインから抽出した10,195個のテキストチャンクのデータベースに対して,ハイブリッドな埋め込み機構によって構成されている。平均相反ランク(MRR)が0.814、第1チャンクで81%、検索チャンクで99.1%のリコールが7901クエリで評価されている。 RAGシステムの最も大きな影響は、生成段階で観察された。 70組の質問応答対を手作業で収集したデータセットで評価すると,RAG強化モデルの性能は著しく向上した。回答が原文で支持されるかどうかの尺度であるFhithfulnessは、RAG-enhanced O4-Miniモデルでは64.7ポイントから99.5%に増加し、医療に焦点を当てたMeditron3-8B LLMでは43%と大幅に上回った。これは、全てのRAG強化モデルに対して1の完全なコンテキスト精度スコアと組み合わせることで、関連する資料に回答を根拠にすることで、情報生成を防止するシステムの能力を確認する。そこで本研究では,RAGを医療におけるジェネレーティブAIの適用のための,効果的で信頼性の高いスケーラブルなアプローチとして確立し,医療ガイドラインへの費用対効果を実現する。

関連論文リスト

PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。 LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文参考訳（メタデータ） (2026-03-02T00:50:39Z)
From Evidence-Based Medicine to Knowledge Graph: Retrieval-Augmented Generation for Sports Rehabilitation and a Domain Benchmark [12.595335483488052]
医学において、大規模な言語モデルは、最新の外部証拠のアウトプットを得るために、検索強化世代(RAG)にますます依存している。本研究は,(1)クエリと検索されたエビデンス間のPICOアライメントの欠如,(2)再ランク付け時のエビデンス階層的考察の欠如,の2つの主要なギャップに対処する。本稿では,知識グラフ構築と検索にPICOフレームワークを統合することにより,EMMをグラフベースRAGに適用するための一般化可能な戦略を提案する。
論文参考訳（メタデータ） (2026-01-01T05:20:54Z)
A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文参考訳（メタデータ） (2025-12-23T13:26:13Z)
Rethinking Retrieval-Augmented Generation for Medicine: A Large-Scale, Systematic Expert Evaluation and Practical Insights [42.23030568766672]
大きな言語モデル(LLM)は医学の風景を変えつつある。 Retrieval-augmented Generation (RAG) はこれらの制限に対処するために広く採用されている。今回,医学におけるRAGの総合的評価について紹介する。
論文参考訳（メタデータ） (2025-11-10T06:00:12Z)
EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文参考訳（メタデータ） (2025-09-24T14:09:55Z)
Agentic large language models improve retrieval-based radiology question answering [4.208637377704778]
本稿では,大規模言語モデル(LLM)を自律的に分解可能なエージェントRAGフレームワークを提案する。 LLMはRadiopaedia.orgから標的臨床証拠を反復的に回収し、証拠に基づく反応を動的に合成する。エージェント検索により、ゼロショットプロンプトや従来のオンラインRAGよりも平均診断精度が大幅に向上した。
論文参考訳（メタデータ） (2025-08-01T16:18:52Z)
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。 DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文参考訳（メタデータ） (2025-06-25T13:42:26Z)
ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge [40.49917730563565]
ESGeniusは、環境、社会、ガバナンス(ESG)における大規模言語モデル(LLM)の熟練度の評価と向上のための総合的なベンチマークである。 ESGenius-QA (i) ESGenius-QA (i) ESGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-Corpus (i) ESGenius-Corpus (i) ESGenius-Corpusは231の基本的なフレームワーク、標準、レポート、レコメンデーションドキュメントを、7つの権威あるソースから収集した。
論文参考訳（メタデータ） (2025-06-02T13:19:09Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Enhanced Electronic Health Records Text Summarization Using Large Language Models [0.0]
このプロジェクトは、臨床が優先する、焦点を絞った要約を生成するシステムを作成することで、以前の作業の上に構築される。提案システムでは,Flan-T5モデルを用いて,臨床専門のトピックに基づいた調整されたERHサマリーを生成する。
論文参考訳（メタデータ） (2024-10-12T19:36:41Z)
Benchmarking Retrieval-Augmented Generation for Medicine [30.390132015614128]
大規模言語モデル(LLM)は、幅広い医療質問応答(QA)タスクにおいて最先端のパフォーマンスを達成した。 Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。我々は、5つの医療QAデータセットから7,663の質問を含む第一種ベンチマークであるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。
論文参考訳（メタデータ） (2024-02-20T17:44:06Z)
Development and Testing of Retrieval Augmented Generation in Large Language Models -- A Case Study Report [2.523433459887027]
Retrieval Augmented Generation (RAG)は、大規模言語モデル(LLM)におけるドメイン知識をカスタマイズするための有望なアプローチとして出現する。 LLM-RAGモデルを35の術前ガイドラインを用いて開発し,人為的反応に対して試験を行った。このモデルでは平均15～20秒で回答が生成され、人間の要求する10分よりもはるかに速くなった。
論文参考訳（メタデータ） (2024-01-29T06:49:53Z)
Conformer Based Elderly Speech Recognition System for Alzheimer's Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文参考訳（メタデータ） (2022-06-23T12:50:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。