論文の概要: Assessing Automated Fact-Checking for Medical LLM Responses with Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2511.12817v1
- Date: Sun, 16 Nov 2025 22:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.557695
- Title: Assessing Automated Fact-Checking for Medical LLM Responses with Knowledge Graphs
- Title(参考訳): 知識グラフを用いた医療用LCM応答に対するFact-Checkingの自動評価
- Authors: Shasha Zhou, Mingyu Huang, Jack Cole, Charles Britton, Ming Yin, Jan Wolber, Ke Li,
- Abstract要約: 近年の大規模言語モデル(LLM)の普及は、医療に革命をもたらす可能性がある。
本稿では,医療知識グラフ(KG)を用いたLCM生成応答の自動現実性評価の信頼性と信頼性について検討する。
我々は、このKGベースのアプローチの長所と短所を調査するために設計されたフレームワークであるFAITHを紹介する。
- 参考スコア(独自算出の注目度): 12.287636586297756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent proliferation of large language models (LLMs) holds the potential to revolutionize healthcare, with strong capabilities in diverse medical tasks. Yet, deploying LLMs in high-stakes healthcare settings requires rigorous verification and validation to understand any potential harm. This paper investigates the reliability and viability of using medical knowledge graphs (KGs) for the automated factuality evaluation of LLM-generated responses. To ground this investigation, we introduce FAITH, a framework designed to systematically probe the strengths and limitations of this KG-based approach. FAITH operates without reference answers by decomposing responses into atomic claims, linking them to a medical KG, and scoring them based on evidence paths. Experiments on diverse medical tasks with human subjective evaluations demonstrate that KG-grounded evaluation achieves considerably higher correlations with clinician judgments and can effectively distinguish LLMs with varying capabilities. It is also robust to textual variances. The inherent explainability of its scoring can further help users understand and mitigate the limitations of current LLMs. We conclude that while limitations exist, leveraging KGs is a prominent direction for automated factuality assessment in healthcare.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の普及は、多様な医療タスクにおいて強力な能力を持つ医療に革命をもたらす可能性を秘めている。
しかし、LLMを高リスクな医療環境にデプロイするには、潜在的な害を理解するために厳格な検証と検証が必要である。
本稿では,医療知識グラフ(KG)を用いたLCM生成応答の自動現実性評価の信頼性と信頼性について検討する。
そこで本研究では,このKGに基づくアプローチの強みと限界を体系的に調査するフレームワークであるFAITHを紹介する。
FAITHは、応答を原子的クレームに分解し、それらを医療用KGにリンクし、エビデンスパスに基づいて評価することで、参照応答なしで動作します。
ヒトの主観的評価を用いた多種多様な医療課題の実験は、KGによる評価が臨床医の判断とかなり高い相関を達成し、LLMを様々な能力で効果的に識別できることを実証している。
テキストのばらつきにも強い。
そのスコアリングの本質的な説明性は、ユーザが現在のLLMの限界を理解し、緩和するのに役立ちます。
我々は、制限はあるものの、KGsを活用することは、医療における自動化事実性評価の顕著な方向である、と結論付けている。
関連論文リスト
- Improving Reliability and Explainability of Medical Question Answering through Atomic Fact Checking in Retrieval-Augmented LLMs [15.61511109105186]
大型言語モデル (LLM) は医学的知識が豊富であるが、幻覚や不正確な引用の傾向にある。
Retrieval Augmented Generationのような現在の手法は、ソース文書の回答を根拠にすることで、これらの問題に部分的に対処する。
我々は,LLMの信頼性と説明可能性を高めるために,新しい原子ファクトチェックフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-30T17:33:07Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Can LLMs Support Medical Knowledge Imputation? An Evaluation-Based Perspective [1.4913052010438639]
我々は,Large Language Models (LLMs) を用いて,欠落した治療関係を計算した。
LLMは、知識増強において有望な能力を提供するが、医療知識計算におけるそれらの応用は、重大なリスクをもたらす。
本研究は, 臨床ガイドラインの不整合, 患者の安全性への潜在的なリスクなど, 重大な限界を指摘した。
論文 参考訳(メタデータ) (2025-03-29T02:52:17Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - MedHallBench: A New Benchmark for Assessing Hallucination in Medical Large Language Models [0.0]
医療大言語モデル(MLLM)は医療応用の可能性を示している。
幻覚に対する寛容性は、患者医療に重大なリスクをもたらす。
本稿では,MLLMにおける幻覚の評価と緩和のためのベンチマークフレームワークであるMedHallBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-25T16:51:29Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。