論文の概要: VeriLLMed: Interactive Visual Debugging of Medical Large Language Models with Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2604.23356v1
- Date: Sat, 25 Apr 2026 15:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.292921
- Title: VeriLLMed: Interactive Visual Debugging of Medical Large Language Models with Knowledge Graphs
- Title(参考訳): VeriLLMed:知識グラフを用いた医療用大規模言語モデルのインタラクティブビジュアルデバッグ
- Authors: Yurui Xiang, Xingyi Mao, Rui Sheng, Zixin Chen, Zelin Zang, Yuyang Wu, Haipeng Zeng, Huamin Qu, Yushi Sun, Yanna Lin,
- Abstract要約: 大規模言語モデル(LLM)は医学的診断において有望であるが、実際の展開は依然として困難である。
医用診断推論の監査・デバッグに外部のバイオメディカル知識を統合した視覚分析システムであるVeriLLMedを提案する。
- 参考スコア(独自算出の注目度): 39.35333058186202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show promise in medical diagnosis, but real-world deployment remains challenging due to high-stakes clinical decisions and imperfect reasoning reliability. As a result, careful inspection of model behavior is essential for assessing whether diagnostic reasoning is reliable and clinically grounded. However, debugging medical LLMs remains difficult. First, developers often lack sufficient medical domain expertise to interpret model errors in clinically meaningful terms. Second, models can fail across a large and diverse set of instances involving different input types, tasks, and reasoning steps, making it challenging for developers to prioritize which errors deserve focused inspection. Third, developers struggle to identify recurring error patterns across cases, as existing debugging practices are largely instance-centric and rely on manual inspection of isolated failures. To address these challenges, we present VeriLLMed, a visual analytics system that integrates external biomedical knowledge to audit and debug medical LLM diagnostic reasoning. VeriLLMed transforms model outputs into comparable reasoning paths, constructs knowledge graph-grounded reference paths, and identifies three recurring classes of diagnosis errors: relation errors, branch errors, and missing errors. Case studies and expert evaluation demonstrate that VeriLLMed helps developers identify clinically implausible reasoning and generate actionable insights that can inform the improvement of medical LLMs.
- Abstract(参考訳): 大規模言語モデル (LLM) は医療診断において有望であるが, 高い臨床判断と不完全な推論信頼性のため, 実世界の展開は依然として困難である。
その結果、診断的推論が信頼性が高く臨床的根拠があるかどうかを評価するためには、モデル行動の慎重な検査が不可欠である。
しかし, 医療用LSMのデバッグは依然として困難である。
第一に、開発者は、臨床的に意味のある用語でモデルエラーを解釈するのに十分な医療領域の専門知識を欠いていることが多い。
第二に、モデルがさまざまな入力タイプ、タスク、推論ステップを含む、多種多様なインスタンスセットにまたがって失敗する可能性があるため、開発者はどのエラーが集中検査に値するかを優先順位付けすることが難しい。
第3に、既存のデバッグプラクティスは、主にインスタンス中心であり、独立した障害の手動検査に依存しているため、開発者はケース間で繰り返し発生するエラーパターンを特定するのに苦労している。
これらの課題に対処するために、医用LCM診断推論の監査とデバッグに外部のバイオメディカル知識を統合するビジュアル分析システムであるVeriLLMedを提案する。
VeriLLMedはモデル出力を同等の推論パスに変換し、知識グラフを基底とした参照パスを構築し、診断エラーの3つの繰り返しクラスを識別する。
ケーススタディと専門家による評価により、VeriLLMedは、臨床上不可解な推論を識別し、医療用LLMの改善を知らせる実行可能な洞察を生み出すのに役立ちます。
関連論文リスト
- A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist [1.1731001328350983]
本研究では,専門家検証データセットを用いた行動・メタ認知分析手法を適用した。
メトリクスを用いた認知適応と校正誤差の分析:予測誤差(ECE)とベースライン正規化相対誤差(RCE)
以上の結果より, 両モデルとも, 特に臨床ロールプレイング条件下では, 誤診や過信感が顕著であった。
論文 参考訳(メタデータ) (2025-10-22T00:15:02Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Brittleness and Promise: Knowledge Graph Based Reward Modeling for Diagnostic Reasoning [8.35131510062609]
大型言語モデル (LLM) は診断的推論を約束するが、しばしば信頼できる知識に基づく推論を欠いている。
本研究は,候補経路が患者入力の正しい診断につながるかどうかを判断するために学習するKG推論経路の報奨モデルとしてLLMを取り扱う。
臨床KGに対する「リワードモデル」推論の体系的評価を初めて行った。
論文 参考訳(メタデータ) (2025-09-22T18:39:09Z) - KERAP: A Knowledge-Enhanced Reasoning Approach for Accurate Zero-shot Diagnosis Prediction Using Multi-agent LLMs [39.47350988195002]
大きな言語モデル(LLM)は、診断予測に言語能力と生物医学的知識を活用することを約束している。
我々は,知識グラフ(KG)を用いた多エージェントアーキテクチャによるLLMに基づく診断予測を改善する推論手法であるKERAPを提案する。
本フレームワークは, マッピング用リンクエージェント, 構造化知識抽出用検索エージェント, 診断予測を反復的に洗練する予測エージェントから構成される。
論文 参考訳(メタデータ) (2025-07-03T16:35:11Z) - MedErr-CT: A Visual Question Answering Benchmark for Identifying and Correcting Errors in CT Reports [4.769418278782809]
MedErr-CTは医療MLLMのCTレポートにおける誤りの特定と修正能力を評価するための新しいベンチマークである。
ベンチマークには6つのエラーカテゴリが含まれている。4つの視覚中心エラー(Omission, Insertion, Direction, Size)と2つの語彙的エラータイプ(Unit, Typo)だ。
論文 参考訳(メタデータ) (2025-06-24T00:51:03Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。