論文の概要: MedPRMBench: A Fine-grained Benchmark for Process Reward Models in Medical Reasoning
- arxiv url: http://arxiv.org/abs/2604.17282v1
- Date: Sun, 19 Apr 2026 06:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.434071
- Title: MedPRMBench: A Fine-grained Benchmark for Process Reward Models in Medical Reasoning
- Title(参考訳): MedPRMBench:医療推論におけるプロセスリワードモデルのためのきめ細かいベンチマーク
- Authors: Lingyan Wu, Xiang Zheng, Weiqi Zhai, Wei Wang, Xuan Ren, Zifan Zhang, Hu Wei, Bing Zhao,
- Abstract要約: 医療領域における最初のプロセスレベルの報酬モデルベンチマークであるMedPRMBenchを提案する。
臨床共鳴ブループリント(CRB)に基づく3相パイプラインで構築される。
ベンチマークには6500の質問と13,000の推論チェーン、113,910のステップレベルラベル、トレーニング用の6,879の質問が含まれている。
- 参考スコア(独自算出の注目度): 7.000170880015254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process-Level Reward Models (PRMs) are essential for guiding complex reasoning in large language models, yet existing PRM benchmarks cover only general domains such as mathematics, failing to address medical reasoning -- which is uniquely characterized by safety criticality, knowledge intensity, and diverse error patterns. Without a reliable medical PRM evaluation framework, we cannot quantify models' error detection capabilities in clinical reasoning, leaving their safety in real-world healthcare applications unverified. We propose MedPRMBench, the first process-level reward model benchmark for the medical domain. Built through a three-phase pipeline based on Clinical Reasoning Blueprints (CRBs), MedPRMBench systematically generates high-quality evaluation data from seven medical QA sources, covering 14 fine-grained error types across three categories (Simplicity, Soundness, and Sensitivity) with the first 4-level severity grading system to quantify clinical impact. The benchmark comprises 6{,}500 questions with 13{,}000 reasoning chains and 113{,}910 step-level labels, plus 6{,}879 questions for training. Our medical PRM baseline achieves an 87.1\% overall PRMScore -- substantially surpassing all baselines -- and serves as a plug-and-play verifier that improves downstream medical QA accuracy by 3.2--6.7 percentage points. Systematic evaluation spanning proprietary frontier models, open-source reasoning models, and medical-specialized models reveals critical weaknesses in current models' medical reasoning error detection capabilities, providing clear directions for future PRM improvement.
- Abstract(参考訳): プロセスレベルリワードモデル(Process-Level Reward Models, PRM)は、大規模言語モデルにおいて複雑な推論を導くのに不可欠であるが、既存のPRMベンチマークは、数学のような一般的なドメインのみをカバーし、医療的推論に対処できない。
信頼性の高い医療PRM評価フレームワークがなければ、臨床推論においてモデルのエラー検出能力を定量化できない。
医療領域における最初のプロセスレベルの報酬モデルベンチマークであるMedPRMBenchを提案する。
MedPRMBenchはクリニカル・推論・ブループリント(CRB)に基づく3段階のパイプラインで構築され、7つの医療QAソースから高品質な評価データを体系的に生成し、3つのカテゴリ(単純性、音性、感度)にわたる14のきめ細かいエラータイプを、臨床効果を定量化する最初の4段階の重症度評価システムでカバーしている。
ベンチマークには6{,}500の質問と13{,}000の推論チェーン、113{,}910のステップレベルラベル、トレーニング用の6{,}879の質問が含まれている。
我々の医用PRMベースラインは、全ベースラインをほぼ上回る87.1\%のPRMSコアを達成し、下流医療QAの精度を3.2~6.7ポイント向上させるプラグアンドプレイ検証器として機能する。
プロプライエタリフロンティアモデル、オープンソース推論モデル、医療特化モデルにまたがる体系的評価は、現在のモデルの医学推論エラー検出能力に重大な弱点を示し、将来のPRM改善のための明確な方向を提供する。
関連論文リスト
- Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment [0.0]
小規模のオープンソース言語モデルは、低リソース環境でのヘルスケアアプリケーションに注目を集めている。
臨床質問応答データセットを用いて,5つのオープンソースモデル(Gemma 2 2B, Phi-3 Mini 3.8B, Llama 3.2 3B, Mistral 7B, Meditron-7B)を評価した。
論文 参考訳(メタデータ) (2026-03-01T04:37:48Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - Cancer Diagnosis Categorization in Electronic Health Records Using Large Language Models and BioBERT: Model Performance Evaluation Study [0.1625256372381793]
がん患者3456例のICD (International Classification of Diseases, 436free-text entrys) について, 762例の診断を行った。
モデルは、診断を14の既定のカテゴリに分類する能力で試験された。
GPT-3.5、Gemini、Llamaは両方のフォーマットで全体的なパフォーマンスを低下させた。
論文 参考訳(メタデータ) (2025-10-08T16:50:40Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards [28.419723761732357]
Med-PRMは、確立した医療知識ベースに対する各推論ステップを検証するためのプロセス報酬モデリングフレームワークである。
Med-PRMは最先端のパフォーマンスを実現し、ベースモデルの性能を最大13.50%向上させた。
我々は、Med-PRMの汎用性を、Meerkatのような強力なポリシーモデルとプラグイン・アンド・プレイ方式で統合することで示す。
論文 参考訳(メタデータ) (2025-06-13T05:36:30Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。