論文の概要: MAPLE: Elevating Medical Reasoning from Statistical Consensus to Process-Led Alignment
- arxiv url: http://arxiv.org/abs/2603.08987v1
- Date: Mon, 09 Mar 2026 22:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.854362
- Title: MAPLE: Elevating Medical Reasoning from Statistical Consensus to Process-Led Alignment
- Title(参考訳): MAPLE: 統計的合意からプロセス主導アライメントへ
- Authors: Kailong Fan, Anqi Pu, Yichen Wu, Wanhua Li, Yicong Li, Hanspeter Pfister, Huafeng Liu, Xiang Li, Quanzheng Li, Ning Guo,
- Abstract要約: 医療プロセス報酬モデルとテスト時間強化学習(TTRL)を統合する新しい統一トレーニングパラダイムを提案する。
具体的には,従来の MV を Med-RPM を用いた細粒度の専門家による監視パラダイムに置き換えることで,TTRL フレームワークを進化させる。
この統合により、強化学習は単なるコンセンサスではなく医学的正確性によってガイドされ、探索に基づく知性をモデルのパラメトリックメモリに効果的に蒸留することができる。
- 参考スコア(独自算出の注目度): 40.18486858532692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in medical large language models have explored Test-Time Reinforcement Learning (TTRL) to enhance reasoning. However, standard TTRL often relies on majority voting (MV) as a heuristic supervision signal, which can be unreliable in complex medical scenarios where the most frequent reasoning path is not necessarily the clinically correct one. In this work, we propose a novel and unified training paradigm that integrates medical process reward models with TTRL to bridge the gap between test-time scaling (TTS) and parametric model optimization. Specifically, we advance the TTRL framework by replacing the conventional MV with a fine-grained, expert-aligned supervision paradigm using Med-RPM. This integration ensures that reinforcement learning is guided by medical correctness rather than mere consensus, effectively distilling search-based intelligence into the model's parametric memory. Extensive evaluations on four different benchmarks have demonstrated that our developed method consistently and significantly outperforms current TTRL and standalone PRM selection. Our findings establish that transitioning from stochastic heuristics to structured, step-wise rewards is essential for developing reliable and scalable medical AI systems
- Abstract(参考訳): 医学大言語モデルの最近の進歩は、推論を強化するためにテスト時間強化学習(TTRL)を探索している。
しかし、標準的なTTRLは、しばしば多数決(MV)をヒューリスティックな監視信号として頼りにしており、最も頻繁な推論経路が必ずしも臨床的に正しいものではない複雑な医療シナリオでは信頼できない。
本研究では,TTRLと医療プロセス報酬モデルを統合し,テストタイムスケーリング(TTS)とパラメトリックモデル最適化のギャップを埋める,新しい統一トレーニングパラダイムを提案する。
具体的には,従来の MV を Med-RPM を用いた細粒度の専門家による監視パラダイムに置き換えることで,TTRL フレームワークを進化させる。
この統合により、強化学習は単なるコンセンサスではなく医学的正確性によってガイドされ、探索に基づく知性をモデルのパラメトリックメモリに効果的に蒸留することができる。
4つのベンチマークを総合的に評価した結果,提案手法はTTRLと独立系PRM選択よりも連続的かつ著しく優れていた。
我々の発見は、確率的ヒューリスティックから構造化された段階的な報酬への移行が、信頼性とスケーラブルな医療AIシステムの開発に不可欠であることを証明している。
関連論文リスト
- MedAD-R1: Eliciting Consistent Reasoning in Interpretible Medical Anomaly Detection via Consistency-Reinforced Policy Optimization [46.65200216642429]
我々はMedADの最初の大規模マルチモーダル・マルチセンタベンチマークであるMedAD-38Kを紹介し、構造化された視覚質問応答(VQA)ペアとともに、CoT(Chain-of-Thought)アノテーションを特徴付ける。
提案するモデルであるMedAD-R1は、MedAD-38Kベンチマーク上での最先端(SOTA)性能を実現し、強いベースラインを10%以上上回った。
論文 参考訳(メタデータ) (2026-02-01T07:56:10Z) - MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。
本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文 参考訳(メタデータ) (2026-01-16T02:32:07Z) - TCM-Eval: An Expert-Level Dynamic and Extensible Benchmark for Traditional Chinese Medicine [51.01817637808011]
我々は,中国伝統医学(TCM)の最初のダイナミックで高品質なベンチマークであるTCM-Evalを紹介する。
大規模トレーニングコーパスを構築し,SI-CoTE(Self-Iterative Chain-of-Thought Enhancement)を提案する。
このリッチなトレーニングデータを用いて,TCM用に特別に設計された最先端LLMであるZhiMingTang(ZMT)を開発した。
論文 参考訳(メタデータ) (2025-11-10T14:35:25Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - An Agentic Model Context Protocol Framework for Medical Concept Standardization [5.12407270785129]
モデルコンテキストプロトコル(MCP)に基づくゼロトレーニング・幻覚防止マッピングシステムの開発
このシステムは説明可能なマッピングを可能にし、最小限の労力で効率と精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-09-04T02:32:22Z) - RPRO: Ranked Preference Reinforcement Optimization for Enhancing Medical QA and Diagnostic Reasoning [5.493679122639688]
医学的な質問応答には、ドメイン知識と論理的推論を統合する高度な推論が必要である。
そこで我々は,強化学習と嗜好駆動型推論改良を組み合わせた新しいフレームワークであるランキング優先強化最適化(RPRO)を提案する。
論文 参考訳(メタデータ) (2025-08-31T19:38:25Z) - Transforming Multimodal Models into Action Models for Radiotherapy [39.682133213072554]
放射線治療は重要ながん治療であり、腫瘍の保存と健康な組織の根絶のバランスをとるための正確な計画が必要である。
伝統的な治療計画(TP)は、反復的で、時間がかかり、人間の専門知識に依存している。
本稿では,MLM(Multimodal foundation model)を,数発の強化学習アプローチを用いたアクションモデルに変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T09:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。