論文の概要: Scaling Medical Reasoning Verification via Tool-Integrated Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.20221v1
- Date: Wed, 28 Jan 2026 03:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.754004
- Title: Scaling Medical Reasoning Verification via Tool-Integrated Reinforcement Learning
- Title(参考訳): ツール強化強化学習による医療推論検証のスケールアップ
- Authors: Hang Zhang, Ruheng Wang, Yuelyu Ji, Mingu Kwak, Xizhi Wu, Chenyu Li, Li Zhang, Wenqi Shi, Yifan Peng, Yanshan Wang,
- Abstract要約: 大規模言語モデルは、医学的推論ベンチマークにおいて高いパフォーマンスを達成しているが、その臨床環境への展開は、事実の正確性を保証するために厳密な検証を必要とする。
我々は,これらの制約に対処するエージェントフレームワークである$method$を紹介した。
提案手法では,ツール拡張検証と,トレースレベルの監視のみを必要とする反復的強化学習パラダイムと,トレーニングデータの分散を動的に調整する適応型カリキュラム機構を組み合わせる。
- 参考スコア(独自算出の注目度): 16.961805729897595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have achieved strong performance on medical reasoning benchmarks, yet their deployment in clinical settings demands rigorous verification to ensure factual accuracy. While reward models offer a scalable approach for reasoning trace verification, existing methods face two limitations: they produce only scalar reward values without explicit justification, and they rely on single-pass retrieval that precludes adaptive knowledge access as verification unfolds. We introduce $\method$, an agentic framework that addresses these limitations by training medical reasoning verifiers to iteratively query external medical corpora during evaluation. Our approach combines tool-augmented verification with an iterative reinforcement learning paradigm that requires only trace-level supervision, alongside an adaptive curriculum mechanism that dynamically adjusts training data distribution. Across four medical reasoning benchmarks, $\method$ achieves substantial gains over existing methods, improving MedQA accuracy by 23.5% and MedXpertQA by 32.0% relative to the base generator in particular. Crucially, $\method$ demonstrates an $\mathbf{8\times}$ reduction in sampling budget requirement compared to prior reward model baselines. These findings establish that grounding verification in dynamically retrieved evidence offers a principled path toward more reliable medical reasoning systems.
- Abstract(参考訳): 大規模言語モデルは、医学的推論ベンチマークにおいて高いパフォーマンスを達成しているが、その臨床環境への展開は、事実の正確性を保証するために厳密な検証を必要とする。
報酬モデルはトレース検証を推論するためのスケーラブルなアプローチを提供するが、既存の手法には2つの制限がある。
我々は,これらの制約に対処するエージェントフレームワークである$\method$を紹介した。
提案手法では,ツール拡張検証と,トレースレベルの監視のみを必要とする反復的強化学習パラダイムと,トレーニングデータの分散を動的に調整する適応型カリキュラム機構を組み合わせる。
4つの医学推論ベンチマークで、$\method$は既存の方法よりも大幅に向上し、MedQAの精度は23.5%向上し、MedXpertQAの精度は特にベースジェネレータと比較して32.0%向上した。
重要なのは、$\method$は、以前の報酬モデルベースラインと比較して、サンプリング予算の要求を削減した$\mathbf{8\times}を実証する。
これらの結果から, 動的に検索された証拠の根拠的検証は, より信頼性の高い医療推論システムへの道筋となることが示唆された。
関連論文リスト
- Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation [97.36081721024728]
本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。
本ベンチマークでは,3種類の医療データを統合し,診断を行う。
本稿では,エビデンスを基盤とした言語自己評価フレームワークであるMedConfを紹介する。
論文 参考訳(メタデータ) (2026-01-22T04:51:39Z) - Scalably Enhancing the Clinical Validity of a Task Benchmark with Physician Oversight [5.202988483354374]
本研究では,複雑なタスクの監視ベンチマークを,定期的に再評価すべき 'in-progress living document'' として提案する。
我々は,先進的なエージェント検証を利用して,MedCalc-Benchを監査し,レラベル化する,系統的,内科的・内科的パイプラインを提案する。
検査の結果,抽出ミス,電卓論理ミスマッチ,臨床曖昧さなどにより,原著ラベルの顕著な部分が医学的根拠の真相から逸脱していることが判明した。
論文 参考訳(メタデータ) (2025-12-22T18:59:34Z) - MedRule-KG: A Knowledge-Graph--Steered Scaffold for Reliable Mathematical and Biomedical Reasoning [0.0]
MedRule-KGは, 数学的, 生化学的に有効な出力に向けて, 生成を操る軽量検証器と組み合わせた, コンパクトな知識グラフ足場である。
反応の実現可能性、代謝適合性、毒性のスクリーニングにまたがる90のタスクで、MedRule-KGは強力なチェーン・オブ・ソートのベースラインに対して、違反数を83.2%削減する。
論文 参考訳(メタデータ) (2025-11-17T04:42:52Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards [28.419723761732357]
Med-PRMは、確立した医療知識ベースに対する各推論ステップを検証するためのプロセス報酬モデリングフレームワークである。
Med-PRMは最先端のパフォーマンスを実現し、ベースモデルの性能を最大13.50%向上させた。
我々は、Med-PRMの汎用性を、Meerkatのような強力なポリシーモデルとプラグイン・アンド・プレイ方式で統合することで示す。
論文 参考訳(メタデータ) (2025-06-13T05:36:30Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - MedS$^3$: Towards Medical Slow Thinking with Self-Evolved Soft Dual-sided Process Supervision [42.03114317779815]
Moneは、小規模でデプロイ可能なモデルに堅牢な推論機能を提供する、自己進化型のフレームワークである。
moneは過去の最先端の医療モデルを+6.45の精度で上回り、32Bスケールの汎用推論モデルを+8.57の精度で上回っている。
論文 参考訳(メタデータ) (2025-01-21T11:24:55Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。