論文の概要: MedProbeBench: Systematic Benchmarking at Deep Evidence Integration for Expert-level Medical Guideline
- arxiv url: http://arxiv.org/abs/2604.18418v1
- Date: Mon, 20 Apr 2026 15:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.974231
- Title: MedProbeBench: Systematic Benchmarking at Deep Evidence Integration for Expert-level Medical Guideline
- Title(参考訳): MedProbeBench: エキスパートレベルの医療ガイドラインのためのディープエビデンス統合におけるシステムベンチマーク
- Authors: Jiyao Liu, Jianghan Shen, Sida Song, Tianbin Li, Xiaojia Liu, Rongbin Li, Ziyan Huang, Jiashi Lin, Junzhi Ning, Changkai Ji, Siqi Luo, Wenjie Li, Chenglong Ma, Ming Hu, Jing Xiong, Jin Ye, Bin Fu, Ningsheng Xu, Yirong Chen, Lei Jin, Hong Chen, Junjun He,
- Abstract要約: ディープリサーチシステムは、大規模な外部知識を検索し、合成し、推論することができる。
既存のベンチマークでは、現実的なマルチステップのエビデンス統合と専門家レベルの判断でこの能力を評価できない。
MedProbeBenchは、専門家レベルの基準として高品質な臨床ガイドラインを活用する最初のベンチマークである。
- 参考スコア(独自算出の注目度): 36.04538037217031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in deep research systems enable large language models to retrieve, synthesize, and reason over large-scale external knowledge. In medicine, developing clinical guidelines critically depends on such deep evidence integration. However, existing benchmarks fail to evaluate this capability in realistic workflows requiring multi-step evidence integration and expert-level judgment. To address this gap, we introduce MedProbeBench, the first benchmark leveraging high-quality clinical guidelines as expert-level references. Medical guidelines, with their rigorous standards in neutrality and verifiability, represent the pinnacle of medical expertise and pose substantial challenges for deep research agents. For evaluation, we propose MedProbe-Eval, a comprehensive evaluation framework featuring: (1) Holistic Rubrics with 1,200+ task-adaptive rubric criteria for comprehensive quality assessment, and (2) Fine-grained Evidence Verification for rigorous validation of evidence precision, grounded in 5,130+ atomic claims. Evaluation of 17 LLMs and deep research agents reveals critical gaps in evidence integration and guideline generation, underscoring the substantial distance between current capabilities and expert-level clinical guideline development. Project: https://github.com/uni-medical/MedProbeBench
- Abstract(参考訳): 近年の深層研究システムの進歩により、大規模な言語モデルにより、大規模な外部知識を検索、合成、推論することが可能になった。
医学では、臨床ガイドラインの策定は、このような深い証拠の統合に批判的に依存する。
しかし、既存のベンチマークでは、多段階のエビデンス統合と専門家レベルの判断を必要とする現実的なワークフローでは、この機能を評価することができない。
このギャップに対処するために,我々は,高品質な臨床ガイドラインを専門家レベルの基準として活用した最初のベンチマークであるMedProbeBenchを紹介した。
医学ガイドラインは、中立性と検証可能性の厳格な基準とともに、医学的専門知識の頂点を表現し、深層研究機関に重大な課題を提起している。
評価のための総合評価フレームワークであるMedProbe-Evalを提案する。(1)包括的品質評価のための1200以上のタスク適応型ルーブリック基準を持つホロスティック・ルーブリック,(2)厳密な証拠検証のためのきめ細かい証拠検証,5,130以上の原子クレームに基づく。
17個のLDMと深部研究エージェントの評価は、エビデンス統合とガイドライン生成の重大なギャップを明らかにし、現在の能力と専門家レベルの臨床ガイドライン開発とのかなりの距離を描いている。
プロジェクト:https://github.com/uni-medical/MedProbeBench
関連論文リスト
- DeepER-Med: Advancing Deep Evidence-Based Research in Medicine Through Agentic AI [10.310030966524161]
我々はエージェントAIシステムを用いた深層医学研究のためのフレームワークであるDeepER-Medを紹介する。
DeepER-Medは、エビデンスベースの生成の明示的で検査可能なワークフローとして、深層医学研究を基盤としている。
複数の基準で広く使われているプロダクショングレードプラットフォームより一貫して優れています。
ヒト臨床評価では、DeepER-Medの結論は7例の臨床勧告と一致している。
論文 参考訳(メタデータ) (2026-04-16T18:17:24Z) - QuarkMedBench: A Real-World Scenario Driven Benchmark for Evaluating Large Language Models [8.050059911826338]
LLM(Large Language Models)は、標準化された医療試験に優れるが、高いスコアは、現実世界の医療クエリに対する高品質な応答に変換できないことが多い。
実世界の医療LCM評価に適した生態学的に有効なベンチマークであるQuarkMedBenchを紹介する。
論文 参考訳(メタデータ) (2026-03-14T01:51:43Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Beyond Classification Accuracy: Neural-MedBench and the Need for Deeper Reasoning Benchmarks [21.203358914772465]
近年の視覚言語モデル (VLM) の進歩は, 標準医学ベンチマークにおいて顕著な性能を発揮しているが, その真の臨床推論能力は未だ不明である。
我々はニューラルメドベンチ(Neural-MedBench)について紹介する。これは、神経学におけるマルチモーダルな臨床推論の限界を調査するためのコンパクトで推論集約的なベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T12:20:01Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - MedBrowseComp: Benchmarking Medical Deep Research and Computer Use [10.565661515629412]
MedBrowseCompは、エージェントが医療事実を検索し、合成する能力を体系的にテストするベンチマークである。
臨床シナリオを反映した1,000以上の人為的な質問が含まれている。
MedBrowseCompをフロンティアエージェントシステムに適用すると、パフォーマンスの欠点が10%も低くなる。
論文 参考訳(メタデータ) (2025-05-20T22:42:33Z) - MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。
生体画像検査における解釈可能性と精度を高めるように設計されている。
4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文 参考訳(メタデータ) (2024-12-18T11:14:02Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。