論文の概要: Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards
- arxiv url: http://arxiv.org/abs/2506.11474v1
- Date: Fri, 13 Jun 2025 05:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.663142
- Title: Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards
- Title(参考訳): Med-PRM : ステップワイド・ガイドライン検証プロセスリワードを用いた医用推論モデル
- Authors: Jaehoon Yun, Jiwoong Sohn, Jungwoo Park, Hyunjae Kim, Xiangru Tang, Yanjun Shao, Yonghoe Koo, Minhyeok Ko, Qingyu Chen, Mark Gerstein, Michael Moor, Jaewoo Kang,
- Abstract要約: Med-PRMは、確立した医療知識ベースに対する各推論ステップを検証するためのプロセス報酬モデリングフレームワークである。
Med-PRMは最先端のパフォーマンスを実現し、ベースモデルの性能を最大13.50%向上させた。
我々は、Med-PRMの汎用性を、Meerkatのような強力なポリシーモデルとプラグイン・アンド・プレイ方式で統合することで示す。
- 参考スコア(独自算出の注目度): 21.831262938278915
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models have shown promise in clinical decision making, but current approaches struggle to localize and correct errors at specific steps of the reasoning process. This limitation is critical in medicine, where identifying and addressing reasoning errors is essential for accurate diagnosis and effective patient care. We introduce Med-PRM, a process reward modeling framework that leverages retrieval-augmented generation to verify each reasoning step against established medical knowledge bases. By verifying intermediate reasoning steps with evidence retrieved from clinical guidelines and literature, our model can precisely assess the reasoning quality in a fine-grained manner. Evaluations on five medical QA benchmarks and two open-ended diagnostic tasks demonstrate that Med-PRM achieves state-of-the-art performance, with improving the performance of base models by up to 13.50% using Med-PRM. Moreover, we demonstrate the generality of Med-PRM by integrating it in a plug-and-play fashion with strong policy models such as Meerkat, achieving over 80\% accuracy on MedQA for the first time using small-scale models of 8 billion parameters. Our code and data are available at: https://med-prm.github.io/
- Abstract(参考訳): 大規模言語モデルは、臨床的な意思決定において有望であるが、現在のアプローチでは、推論プロセスの特定のステップにおけるエラーのローカライズと修正に苦労している。
この制限は医学において重要であり、正確な診断と効果的な患者ケアには推論エラーの特定と対処が不可欠である。
Med-PRMは,検索強化生成を利用したプロセス報酬モデリングフレームワークで,確立した医療知識ベースに対する各推論ステップを検証する。
臨床ガイドラインと文献から得られた証拠を用いて中間的推論ステップを検証することにより,よりきめ細かな推論品質を正確に評価することができる。
5つのQAベンチマークと2つのオープンエンド診断タスクの評価は、Med-PRMが最先端のパフォーマンスを達成し、Med-PRMを使用してベースモデルの性能を最大13.50%向上することを示した。
さらに,Med-PRMをMerkatのような強力なポリシーモデルとプラグイン・アンド・プレイ方式で統合し,80億パラメータの小規模モデルを用いて初めてMedQAの精度を80%以上向上させることにより,Med-PRMの汎用性を実証した。
私たちのコードとデータは、https://med-prm.github.io/で利用可能です。
関連論文リスト
- MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning [34.93995619867384]
LLM(Large Language Models)は、既存の医学的質問応答ベンチマークで素晴らしいパフォーマンスを示している。
MedAgentsBenchは、多段階の臨床推論、診断の定式化、および治療計画シナリオを必要とする医学的問題に焦点を当てたベンチマークである。
論文 参考訳(メタデータ) (2025-03-10T15:38:44Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MedS$^3$: Towards Medical Small Language Models with Self-Evolved Slow Thinking [31.265628928038335]
本稿では,医療業務における長鎖推論を目的とした,展開可能な小規模医療推論システムMedS3を提案する。
MedS3は6.59倍,32Bレベルの一般推論モデルも8.71ポイント向上した。
論文 参考訳(メタデータ) (2025-01-21T11:24:55Z) - Adapting LLMs for the Medical Domain in Portuguese: A Study on Fine-Tuning and Model Evaluation [1.922611370494431]
本研究は,ポルトガル語における医療エージェントとしての大規模言語モデル(LLM)の性能を評価する。
InternLM2モデルは、当初医療データに関するトレーニングを受けており、全体的なパフォーマンスが最高であった。
ChatBodeから派生したDrBodeモデルは、取得した医療知識を壊滅的に忘れる現象を示した。
論文 参考訳(メタデータ) (2024-09-30T19:10:03Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。