論文の概要: MedConsultBench: A Full-Cycle, Fine-Grained, Process-Aware Benchmark for Medical Consultation Agents
- arxiv url: http://arxiv.org/abs/2601.12661v1
- Date: Mon, 19 Jan 2026 02:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.728733
- Title: MedConsultBench: A Full-Cycle, Fine-Grained, Process-Aware Benchmark for Medical Consultation Agents
- Title(参考訳): MedConsultBench: 医療コンサルタントエージェントのためのフルサイクル、ファイングラインド、プロセス対応ベンチマーク
- Authors: Chuhan Qiao, Jianghua Huang, Daxing Zhao, Ziding Liu, Yanjun Shen, Bing Cheng, Wei Lin, Kai Wu,
- Abstract要約: MedConsultBenchは,オンラインコンサルテーションサイクルの完全な評価を目的とした総合的なフレームワークである。
本手法では,臨床情報取得をサブターンレベルで追跡するために,AIU(Atomic Information Units)を導入している。
オンラインコンサルティングに固有の不明瞭さと曖昧さに対処することで、このベンチマークは不確実性を認識しながら簡潔な調査を評価する。
- 参考スコア(独自算出の注目度): 10.109613967215447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current evaluations of medical consultation agents often prioritize outcome-oriented tasks, frequently overlooking the end-to-end process integrity and clinical safety essential for real-world practice. While recent interactive benchmarks have introduced dynamic scenarios, they often remain fragmented and coarse-grained, failing to capture the structured inquiry logic and diagnostic rigor required in professional consultations. To bridge this gap, we propose MedConsultBench, a comprehensive framework designed to evaluate the complete online consultation cycle by covering the entire clinical workflow from history taking and diagnosis to treatment planning and follow-up Q\&A. Our methodology introduces Atomic Information Units (AIUs) to track clinical information acquisition at a sub-turn level, enabling precise monitoring of how key facts are elicited through 22 fine-grained metrics. By addressing the underspecification and ambiguity inherent in online consultations, the benchmark evaluates uncertainty-aware yet concise inquiry while emphasizing medication regimen compatibility and the ability to handle realistic post-prescription follow-up Q\&A via constraint-respecting plan revisions. Systematic evaluation of 19 large language models reveals that high diagnostic accuracy often masks significant deficiencies in information-gathering efficiency and medication safety. These results underscore a critical gap between theoretical medical knowledge and clinical practice ability, establishing MedConsultBench as a rigorous foundation for aligning medical AI with the nuanced requirements of real-world clinical care.
- Abstract(参考訳): 医療相談エージェントの現在の評価は、多くの場合、現実の実践に不可欠なエンドツーエンドのプロセス整合性と臨床安全性を見越して、結果指向のタスクを優先する。
最近のインタラクティブなベンチマークでは動的シナリオが導入されているが、しばしば断片化され粗粒化され、専門家の相談で必要とされる構造化された問い合わせロジックと診断の厳密さを捉えられなかった。
このギャップを埋めるため、我々はMedConsultBenchを提案する。MedConsultBenchは、履歴の収集と診断から治療計画、フォローアップQ\&Aまで、臨床ワークフロー全体をカバーすることで、完全なオンラインコンサルテーションサイクルを評価するために設計された包括的なフレームワークである。
提案手法では,臨床情報取得をサブターンレベルで追跡するためのAIUを導入し,22のきめ細かい測定値から重要な事実を抽出する方法を正確にモニタリングする。
オンラインコンサルテーションに固有の不明瞭さと曖昧さに対処することで、このベンチマークは不確実性を認識しながらも簡潔な調査を評価できると同時に、医薬品の規則互換性と、制約を無視する計画修正を通じて、リアルな処方後のフォローアップQ\&Aを扱う能力を強調している。
19大言語モデルの体系的評価は、高い診断精度が情報収集効率と医薬品の安全性において重大な欠陥を隠蔽していることを示している。
これらの結果から,MedConsultBenchは,医学的知識と臨床的実践能力の間に重要なギャップを生じさせ,医療AIと実世界の臨床医療の曖昧な要件を整合させるための厳密な基盤として確立した。
関連論文リスト
- Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - MedKGEval: A Knowledge Graph-Based Multi-Turn Evaluation Framework for Open-Ended Patient Interactions with Clinical LLMs [19.12790150016383]
MedKGEvalは、臨床用大規模言語モデルのための新しいマルチターン評価フレームワークである。
知識グラフ駆動患者シミュレーション機構は、キュレートされた知識グラフから関連する医療事実を検索する。
ターンレベル評価フレームワークは、各モデル応答を臨床的適切性、事実的正当性、安全性について評価する。
論文 参考訳(メタデータ) (2025-10-14T07:22:26Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Systematic Literature Review on Clinical Trial Eligibility Matching [0.24554686192257422]
レビューでは、説明可能なAIと標準化されたオントロジーがクリニックの信頼を高め、採用を広げる方法が強調されている。
臨床治験採用におけるNLPの変革的ポテンシャルを十分に実現するためには、高度な意味的および時間的表現、拡張されたデータ統合、厳密な予測的評価のさらなる研究が必要である。
論文 参考訳(メタデータ) (2025-03-02T11:45:50Z) - Hierarchical Divide-and-Conquer for Fine-Grained Alignment in LLM-Based Medical Evaluation [31.061600616994145]
HDCEvalは、専門医とのコラボレーションによって開発された、きめ細かい医療評価ガイドラインに基づいて構築されている。
このフレームワークは複雑な評価タスクを専門的なサブタスクに分解し、それぞれがエキスパートモデルによって評価される。
この階層的なアプローチは、評価の各側面が専門家の精度で扱われることを保証する。
論文 参考訳(メタデータ) (2025-01-12T07:30:49Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice with Interactive Sequence [68.05876437208505]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - A Methodology for Bi-Directional Knowledge-Based Assessment of
Compliance to Continuous Application of Clinical Guidelines [1.52292571922932]
ケアプロセスのガイドラインに基づく品質評価を自動化するための新しいアプローチを提案する。
BiKBAC法は臨床ガイドラインを適用する際のコンプライアンスの度合いを評価する。
DiscovErrシステムは、2型糖尿病管理領域の別の研究で評価されました。
論文 参考訳(メタデータ) (2021-03-13T20:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。