論文の概要: Breaking Reward Collapse: Adaptive Reinforcement for Open-ended Medical Reasoning with Enhanced Semantic Discrimination
- arxiv url: http://arxiv.org/abs/2508.12957v1
- Date: Mon, 18 Aug 2025 14:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.377172
- Title: Breaking Reward Collapse: Adaptive Reinforcement for Open-ended Medical Reasoning with Enhanced Semantic Discrimination
- Title(参考訳): 解離性逆行性崩壊 : セマンティック・差別を増強したオープンエンド・メディカル・推論の適応的強化
- Authors: Yizhou Liu, Jingwei Wei, Zizhi Chen, Minghao Han, Xukun Zhang, Keliang Liu, Lihua Zhang,
- Abstract要約: ルールに基づく報酬による強化学習は、視覚言語モデル(VLM)と大規模言語モデル(LLM)の推論と一般化能力を高める強力な可能性を示している。
この領域における既存の強化微調整(RFT)アプローチは主に閉鎖型視覚質問応答(VQA)をターゲットにしている
オープンエンド医療用VQAのための新しいRLフレームワークARMedを提案する。
- 参考スコア(独自算出の注目度): 5.685365519519041
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning (RL) with rule-based rewards has demonstrated strong potential in enhancing the reasoning and generalization capabilities of vision-language models (VLMs) and large language models (LLMs), while reducing computational overhead. However, its application in medical imaging remains underexplored. Existing reinforcement fine-tuning (RFT) approaches in this domain primarily target closed-ended visual question answering (VQA), limiting their applicability to real-world clinical reasoning. In contrast, open-ended medical VQA better reflects clinical practice but has received limited attention. While some efforts have sought to unify both formats via semantically guided RL, we observe that model-based semantic rewards often suffer from reward collapse, where responses with significant semantic differences receive similar scores. To address this, we propose ARMed (Adaptive Reinforcement for Medical Reasoning), a novel RL framework for open-ended medical VQA. ARMed first incorporates domain knowledge through supervised fine-tuning (SFT) on chain-of-thought data, then applies reinforcement learning with textual correctness and adaptive semantic rewards to enhance reasoning quality. We evaluate ARMed on six challenging medical VQA benchmarks. Results show that ARMed consistently boosts both accuracy and generalization, achieving a 32.64% improvement on in-domain tasks and an 11.65% gain on out-of-domain benchmarks. These results highlight the critical role of reward discriminability in medical RL and the promise of semantically guided rewards for enabling robust and clinically meaningful multimodal reasoning.
- Abstract(参考訳): ルールに基づく報酬を持つ強化学習(RL)は、視覚言語モデル(VLM)と大規模言語モデル(LLM)の推論と一般化能力を向上し、計算オーバーヘッドを低減させる強い可能性を示している。
しかし、医用画像への応用は未発見のままである。
この領域の既存の強化微調整(RFT)アプローチは、主に閉じた視覚的質問応答(VQA)をターゲットにしており、実際の臨床推論に適用可能である。
対照的に、開放型医療用VQAは臨床実践を反映しているが、あまり注目されていない。
セマンティックガイド付きRLを用いて両形式を統一しようとする試みもあるが、モデルに基づくセマンティック報酬は報酬の崩壊に悩まされることがしばしばあり、そこでは大きなセマンティック差異を持つ応答が同様のスコアを受ける。
そこで我々は、オープンエンド医療用VQAのための新しいRLフレームワークARMed(Adaptive Reinforcement for Medical Reasoning)を提案する。
ARMedはまず、チェーンオブシンクデータの教師付き微調整(SFT)を通じてドメイン知識を取り入れ、次に、テキストの正確さと適応的なセマンティック報酬による強化学習を適用して推論品質を向上させる。
ARMedを6つの挑戦的な医療用VQAベンチマークで評価した。
その結果、ARMedは精度と一般化の両面で一貫して向上し、ドメイン内タスクでは32.64%、ドメイン外のベンチマークでは11.65%向上した。
これらの結果は、医療RLにおける報酬差別性の重要性と、堅牢で臨床的に有意義なマルチモーダル推論を可能にするための意味論的報酬の約束を強調した。
関連論文リスト
- RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。
この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。
本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making [42.28216499263317]
Med-Zero-17Kは、純粋なRLベースのトレーニングのためのキュレートされたデータセットであり、30以上の医療画像モダリティと24の臨床的タスクを含んでいる。
本稿では,Med-VLM のための大規模 RL フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-15T13:42:46Z) - Med-REFL: Medical Reasoning Enhancement via Self-Corrected Fine-grained Reflection [7.584796006142439]
Med-REFL, underlinetextbfMedical underlinetextbfReasoning underlinetextbfEnhancement via self-corrected underlinetextbfFine-grained refunderlinetextbfLection。
本手法は,医学的疑問を微粒な推論経路に分解し,各ステップとそのその後のリフレクションを定量的に評価する。
論文 参考訳(メタデータ) (2025-06-11T14:58:38Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Improving Medical Reasoning with Curriculum-Aware Reinforcement Learning [2.262453679768892]
医療用VQAに適した,最初のマルチモーダル強化学習フレームワークである textbfMedCCO を紹介する。
MedCCOは、さまざまな医療用VQAタスクに基づいて微調整され、ドメイン基底推論機能を確立する。
MedCCOを8つの挑戦的な医療用VQAベンチマークで検証し、クローズドな設定とオープンな設定の両方にまたがる。
論文 参考訳(メタデータ) (2025-05-25T16:20:55Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然画像の推論において顕著な進歩を遂げているが、医療画像におけるその可能性はまだ探索されていない。
医用推論における一般化と信頼性の向上を目的とした強化学習(RL)による視覚言語モデルであるMed-R1を提案する。
我々はMed-R1を8つの異なる医用画像モダリティで評価した。
論文 参考訳(メタデータ) (2025-03-18T06:12:38Z) - MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning [29.84956540178252]
推論は、医用画像解析の進歩における重要なフロンティアである。
我々は、自然言語推論を明示的に生成する医療用VLMであるMedVLM-R1を紹介する。
MedVLM-R1の精度は、MRI、CT、X線ベンチマークで55.11%から78.22%に向上している。
論文 参考訳(メタデータ) (2025-02-26T23:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。