論文の概要: AutoMedic: An Automated Evaluation Framework for Clinical Conversational Agents with Medical Dataset Grounding
- arxiv url: http://arxiv.org/abs/2512.10195v1
- Date: Thu, 11 Dec 2025 01:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.14248
- Title: AutoMedic: An Automated Evaluation Framework for Clinical Conversational Agents with Medical Dataset Grounding
- Title(参考訳): AutoMedic:医療データグラウンディングによる臨床会話エージェントの自動評価フレームワーク
- Authors: Gyutaek Oh, Sangjoon Park, Byung-Hoon Kim,
- Abstract要約: 臨床対話エージェントとして大規模言語モデル(LLM)の自動評価を可能にするマルチエージェントシミュレーションフレームワークであるAutoMedicを紹介する。
AutoMedicは、市販の静的QAデータセットを仮想的な患者プロファイルに変換することで、現実的で臨床に根ざした臨床対話を可能にする。
臨床会話の精度, 効率・ストラテジー, 共感, 堅牢性の多面的評価基準を提供するCARE測定値に基づいて, 種々の臨床会話エージェントの性能を評価する。
- 参考スコア(独自算出の注目度): 4.87216588304398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating large language models (LLMs) has recently emerged as a critical issue for safe and trustworthy application of LLMs in the medical domain. Although a variety of static medical question-answering (QA) benchmarks have been proposed, many aspects remain underexplored, such as the effectiveness of LLMs in generating responses in dynamic, interactive clinical multi-turn conversation situations and the identification of multi-faceted evaluation strategies beyond simple accuracy. However, formally evaluating a dynamic, interactive clinical situation is hindered by its vast combinatorial space of possible patient states and interaction trajectories, making it difficult to standardize and quantitatively measure such scenarios. Here, we introduce AutoMedic, a multi-agent simulation framework that enables automated evaluation of LLMs as clinical conversational agents. AutoMedic transforms off-the-shelf static QA datasets into virtual patient profiles, enabling realistic and clinically grounded multi-turn clinical dialogues between LLM agents. The performance of various clinical conversational agents is then assessed based on our CARE metric, which provides a multi-faceted evaluation standard of clinical conversational accuracy, efficiency/strategy, empathy, and robustness. Our findings, validated by human experts, demonstrate the validity of AutoMedic as an automated evaluation framework for clinical conversational agents, offering practical guidelines for the effective development of LLMs in conversational medical applications.
- Abstract(参考訳): 医療領域におけるLLMの安全かつ信頼性の高い適用において,LLM(Big Language Model)の評価が重要な問題として最近登場した。
様々な静的医療質問応答(QA)ベンチマークが提案されているが、動的かつインタラクティブな臨床マルチターン会話状況における応答生成におけるLLMの有効性や、単純な精度以上の多面的評価戦略の同定など、多くの側面が検討されている。
しかし、ダイナミックでインタラクティブな臨床状況の形式的評価は、患者状態と相互作用軌跡の膨大な組合せ空間によって妨げられ、そのようなシナリオを標準化し定量的に測定することは困難である。
本稿では,臨床会話エージェントとしてLLMの自動評価を可能にするマルチエージェントシミュレーションフレームワークであるAutoMedicを紹介する。
AutoMedicは、市販の静的QAデータセットを仮想的な患者プロファイルに変換することで、LLMエージェント間の現実的で臨床的に根拠付けられた多ターン臨床対話を可能にする。
臨床会話の精度, 効率・ストラテジー, 共感, 堅牢性の多面的評価基準を提供するCARE測定値に基づいて, 種々の臨床会話エージェントの性能を評価する。
本研究は,臨床会話エージェントの自動評価フレームワークとしてAutoMedicの有効性を実証し,会話医療応用におけるLLMの効果的な開発のための実践的ガイドラインを提供する。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。
本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。
TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文 参考訳(メタデータ) (2025-03-26T15:58:16Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z) - Automatic Interactive Evaluation for Large Language Models with State Aware Patient Simulator [21.60103376506254]
大きな言語モデル(LLM)は、人間の相互作用において顕著な熟練性を示している。
本稿では,SAPS(State-Aware patient Simulator)とAIE(Automated Interactive Evaluation)フレームワークを紹介する。
AIEとSAPSは、多ターン医師-患者シミュレーションを通じてLCMを評価するための動的で現実的なプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-03-13T13:04:58Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。