論文の概要: CuraView: A Multi-Agent Framework for Medical Hallucination Detection with GraphRAG-Enhanced Knowledge Verification
- arxiv url: http://arxiv.org/abs/2605.03476v1
- Date: Tue, 05 May 2026 08:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.832376
- Title: CuraView: A Multi-Agent Framework for Medical Hallucination Detection with GraphRAG-Enhanced Knowledge Verification
- Title(参考訳): CuraView: GraphRAGによる知識検証による医療幻覚検出のためのマルチエージェントフレームワーク
- Authors: Severin Ye, Xiao Kong, Xiaopeng He, Guangsu Yan, Dongsuk Oh,
- Abstract要約: 本報告では,文レベル検出のためのフレームワークであるCuraViewについて述べる。
CuraViewは、患者レベルのEHRからGraphRAGベースの知識グラフを構築する。
我々は,50例の患者を対象に,Ex Discharge-Meベンチマークから250例のCuraViewを評価した。
- 参考スコア(独自算出の注目度): 3.422186949568493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discharge summaries require extracting critical information from lengthy electronic health records (EHRs), a process that is labor-intensive when performed manually. Large language models (LLMs) can improve generation efficiency; however, they are prone to producing faithfulness hallucinations, statements that contradict source records, posing direct risks to patient safety. To address this, we present CuraView, a multi-agent framework for sentence-level detection and evidence-grounded explanation of faithfulness hallucinations in discharge summaries. CuraView constructs a GraphRAG-based knowledge graph from patient-level EHRs and implements a closed-loop generation-detection pipeline with sentence-level evidence retrieval and classification spanning four evidence grades from strong support to direct contradiction (E1-E4), yielding structured and interpretable evidence chains. We evaluate CuraView on a subset of 250 patients from the Discharge-Me benchmark, with 50 patients held out for testing. Our fine-tuned Qwen3-14B detection model achieves an F1 of 0.831 on the safety-critical E4 metric (90.9% recall, 76.5% precision) and an F1 of 0.823 on E3+E4, representing a 50.0% relative improvement over the base model and outperforming RAGTruth-style and QAGS-style baselines. These results demonstrate that evidence-chain-based graph retrieval verification substantially improves the factual reliability of clinical documentation, while simultaneously producing reusable annotated datasets for downstream model training and distillation.
- Abstract(参考訳): 放電サマリーは、手動で行うと労働集約的なプロセスである長い電子健康記録(EHR)から臨界情報を抽出する必要がある。
大規模言語モデル(LLM)は、生成効率を向上させることができるが、忠実な幻覚を生み出す傾向があり、ソース記録に矛盾する記述があり、患者の安全に直接的なリスクをもたらす。
そこで本稿では,文レベル検出のためのマルチエージェントフレームワークであるCuraViewについて紹介する。
CuraView は患者レベルの EHR から GraphRAG ベースの知識グラフを構築し、文レベルのエビデンスを検索・分類し、4つのエビデンスグレードを強力なサポートから直接的な矛盾(E1-E4)までに広げたクローズドループ生成検出パイプラインを実装し、構造化および解釈可能なエビデンスチェーンを生成する。
我々は,50例の患者を対象に,Ex Discharge-Meベンチマークから250例のCuraViewを評価した。
我々の微調整Qwen3-14B検出モデルは、安全クリティカルなE4測定値(90.9%のリコール、76.5%の精度)の0.831と、E3+E4の0.823のF1を達成し、ベースモデルよりも50.0%向上し、RAGTruthスタイルとQAGSスタイルのベースラインを上回ります。
これらの結果から,エビデンスチェーンに基づくグラフ検索検証は,下流モデルトレーニングと蒸留のための再利用可能なアノテートデータセットを同時に生成しながら,臨床文書の事実的信頼性を著しく向上させることが示された。
関連論文リスト
- Detecting Clinical Discrepancies in Health Coaching Agents: A Dual-Stream Memory and Reconciliation Architecture [71.46525715889656]
汎用エージェントメモリシステムは、ユーザの最新のステートメントで古い事実を上書きすることでコヒーレンスを最適化する。
本稿では,患者の物語を構造化された臨床記録から厳密に分離するDual-Stream Memory Architectureを提案する。
675日間のウェルネスコーチングセッションにおいて,26名の患者を対象にこのアーキテクチャを評価した。
論文 参考訳(メタデータ) (2026-04-29T17:59:28Z) - Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - Causal-Enhanced AI Agents for Medical Research Screening [0.0]
体系的なレビューはエビデンスベースの医療には不可欠だが、150万以上の年次出版物を手作業でレビューすることは不可能である。
本稿では,因果推論と二段階知識グラフを組み合わせた因果グラフ強化検索生成システムを提案する。
提案手法では,すべての因果クレームが検索された文献に辿り着くエビデンスファーストプロトコルを適用し,介入-アウトカム経路を可視化する有向非巡回グラフを自動的に生成する。
論文 参考訳(メタデータ) (2026-01-06T08:41:16Z) - Generating Natural-Language Surgical Feedback: From Structured Representation to Domain-Grounded Evaluation [66.7752700084159]
外科的トレーナーからの高品質なフィードバックは,訓練者のパフォーマンス向上と長期的スキル獲得に不可欠である。
本稿では,実際の訓練者-訓練者間の文書から外科的行動オントロジーを学習する構造対応パイプラインを提案する。
論文 参考訳(メタデータ) (2025-11-19T06:19:34Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。
Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。
我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-09-13T15:03:34Z) - Eyes on the Image: Gaze Supervised Multimodal Learning for Chest X-ray Diagnosis and Report Generation [1.5087814338685968]
胸部X線による疾患分類と地域別放射線診断レポートの作成を促進するための2段階フレームワークを提案する。
第一段階では、疾患分類のための視線誘導型コントラスト学習アーキテクチャを導入する。
第2段階では,信頼度重み付き診断キーワードを抽出するモジュールレポート生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-08-18T16:42:29Z) - Enhanced Electronic Health Records Text Summarization Using Large Language Models [0.0]
このプロジェクトは、臨床が優先する、焦点を絞った要約を生成するシステムを作成することで、以前の作業の上に構築される。
提案システムでは,Flan-T5モデルを用いて,臨床専門のトピックに基づいた調整されたERHサマリーを生成する。
論文 参考訳(メタデータ) (2024-10-12T19:36:41Z) - Synchronous Faithfulness Monitoring for Trustworthy Retrieval-Augmented Generation [96.78845113346809]
Retrieval-augmented Language Model (RALMs) は、知識集約型タスクにおいて、高い性能と幅広い適用性を示している。
本稿では,非偽文の検出に微細な復号力学を利用する軽量モニタであるSynCheckを提案する。
また、長文検索拡張生成のためのビームサーチによって導かれる忠実度指向の復号アルゴリズムであるFODを導入する。
論文 参考訳(メタデータ) (2024-06-19T16:42:57Z) - A Data-Centric Approach To Generate Faithful and High Quality Patient Summaries with Large Language Models [11.218649399559691]
幻覚のないデータの微調整は、Llama 2の要約毎の幻覚を2.60から1.55に効果的に減少させる。
一般的なメトリクスは、忠実さや品質とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2024-02-23T16:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。