論文の概要: MedKGEval: A Knowledge Graph-Based Multi-Turn Evaluation Framework for Open-Ended Patient Interactions with Clinical LLMs
- arxiv url: http://arxiv.org/abs/2510.12224v1
- Date: Tue, 14 Oct 2025 07:22:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.224326
- Title: MedKGEval: A Knowledge Graph-Based Multi-Turn Evaluation Framework for Open-Ended Patient Interactions with Clinical LLMs
- Title(参考訳): MedKGEval: オープンエンディング患者と臨床LLMとのインタラクションのための知識グラフに基づくマルチTurn評価フレームワーク
- Authors: Yuechun Yu, Han Ying, Haoan Jin, Wenjian Jiang, Dong Xian, Binghao Wang, Zhou Yang, Mengyue Wu,
- Abstract要約: MedKGEvalは、臨床用大規模言語モデルのための新しいマルチターン評価フレームワークである。
知識グラフ駆動患者シミュレーション機構は、キュレートされた知識グラフから関連する医療事実を検索する。
ターンレベル評価フレームワークは、各モデル応答を臨床的適切性、事実的正当性、安全性について評価する。
- 参考スコア(独自算出の注目度): 19.12790150016383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reliable evaluation of large language models (LLMs) in medical applications remains an open challenge, particularly in capturing the complexity of multi-turn doctor-patient interactions that unfold in real clinical environments. Existing evaluation methods typically rely on post hoc review of full conversation transcripts, thereby neglecting the dynamic, context-sensitive nature of medical dialogues and the evolving informational needs of patients. In this work, we present MedKGEval, a novel multi-turn evaluation framework for clinical LLMs grounded in structured medical knowledge. Our approach introduces three key contributions: (1) a knowledge graph-driven patient simulation mechanism, where a dedicated control module retrieves relevant medical facts from a curated knowledge graph, thereby endowing the patient agent with human-like and realistic conversational behavior. This knowledge graph is constructed by integrating open-source resources with additional triples extracted from expert-annotated datasets; (2) an in-situ, turn-level evaluation framework, where each model response is assessed by a Judge Agent for clinical appropriateness, factual correctness, and safety as the dialogue progresses using a suite of fine-grained, task-specific metrics; (3) a comprehensive multi-turn benchmark of eight state-of-the-art LLMs, demonstrating MedKGEval's ability to identify subtle behavioral flaws and safety risks that are often overlooked by conventional evaluation pipelines. Although initially designed for Chinese and English medical applications, our framework can be readily extended to additional languages by switching the input knowledge graphs, ensuring seamless bilingual support and domain-specific applicability.
- Abstract(参考訳): 医療応用における大規模言語モデル(LLM)の信頼性評価は、特に実際の臨床環境で展開する多ターン医師と患者との相互作用の複雑さを捉える上で、依然としてオープンな課題である。
既存の評価手法は、一般的に、完全な会話書き起こしのポストホックレビューに頼っているため、医療対話の動的で文脈に敏感な性質や患者の情報的ニーズは無視される。
本研究は, 構造化医療知識を基盤とした臨床LSMのマルチターン評価フレームワークであるMedKGEvalについて紹介する。
提案手法では,(1)知識グラフ駆動型患者シミュレーション機構,(2)専門制御モジュールがキュレートされた知識グラフから関連する医療事実を検索し,患者エージェントに人間らしくリアルな会話行動を与える,という3つの重要な貢献を紹介する。
この知識グラフは、専門家が注釈付けしたデータセットから抽出した3つの追加のトリプルをオープンソースリソースと統合することにより構築される。(2)各モデルの応答を臨床的適切性、事実的正当性、安全性を判断する、その場で評価するフレームワークである。
当初、中国語と英語の医療アプリケーション向けに設計されたが、入力知識グラフを切り替え、シームレスなバイリンガルサポートとドメイン固有の適用性を確保することで、我々のフレームワークは簡単に追加言語に拡張できる。
関連論文リスト
- RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Bringing CLIP to the Clinic: Dynamic Soft Labels and Negation-Aware Learning for Medical Analysis [0.9944647907864256]
臨床的に強化されたダイナミック・ソフト・ラベルと医用グラフィカル・アライメントを統合した新しいアプローチを提案する。
われわれのアプローチは、医療用CLIPトレーニングパイプラインに容易に統合され、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-28T08:00:18Z) - PatientSim: A Persona-Driven Simulator for Realistic Doctor-Patient Interactions [15.272979678875787]
本稿では,臨床シナリオのための現実的で多様な患者ペルソナを生成する患者シミュレータであるPatentSimを紹介する。
patientSimは、1)MIMIC-EDおよびMIMIC-IVデータセットの実際のデータから得られた症状や医療史を含む臨床プロファイル、2)性格、言語能力、医療履歴のリコールレベル、認知的混乱レベルという4つの軸で定義されたペルソナを使用する。
トップパフォーマンスのオープンソースモデルであるLlama 3.3は、我々のフレームワークの堅牢性を確認するために、4人の臨床医によって検証された。
論文 参考訳(メタデータ) (2025-05-23T12:34:48Z) - 3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark [0.29987253996125257]
3MDBenchは、LVLM駆動の遠隔医療相談をシミュレートし評価するためのオープンソースのフレームワークである。
内部推論によるマルチモーダル対話は、非対話設定よりもF1スコアが6.5%向上する。
診断畳み込みネットワークからLVLMのコンテキストに予測を注入すると、F1は最大20%上昇する。
論文 参考訳(メタデータ) (2025-03-26T07:32:05Z) - Conversation AI Dialog for Medicare powered by Finetuning and Retrieval Augmented Generation [0.0]
大きな言語モデル(LLM)は、対話生成を含む自然言語処理タスクにおいて印象的な機能を示している。
本研究の目的は、LoRAによる微調整とRetrieval-Augmented Generationフレームワークという、2つの重要な技術の比較分析を行うことである。
論文 参考訳(メタデータ) (2025-02-04T11:50:40Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Generating medically-accurate summaries of patient-provider dialogue: A
multi-stage approach using large language models [6.252236971703546]
効果的な要約は、対話におけるすべての医学的関連情報を一貫性と精度良く捉えることが要求される。
本稿では, 医療会話の要約問題に, タスクを, より小さな対話に基づくタスクに分解することで対処する。
論文 参考訳(メタデータ) (2023-05-10T08:48:53Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。