論文の概要: CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making
- arxiv url: http://arxiv.org/abs/2506.12849v1
- Date: Sun, 15 Jun 2025 13:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.001132
- Title: CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making
- Title(参考訳): CAPO:医学的意思決定における一貫性推論の強化
- Authors: Songtao Jiang, Yuan Wang, Ruizhe Chen, Yan Zhang, Ruilin Luo, Bohan Lei, Sibo Song, Yang Feng, Jimeng Sun, Jian Wu, Zuozhu Liu,
- Abstract要約: Med-Zero-17Kは、純粋なRLベースのトレーニングのためのキュレートされたデータセットであり、30以上の医療画像モダリティと24の臨床的タスクを含んでいる。
本稿では,Med-VLM のための大規模 RL フレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.28216499263317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In medical visual question answering (Med-VQA), achieving accurate responses relies on three critical steps: precise perception of medical imaging data, logical reasoning grounded in visual input and textual questions, and coherent answer derivation from the reasoning process. Recent advances in general vision-language models (VLMs) show that large-scale reinforcement learning (RL) could significantly enhance both reasoning capabilities and overall model performance. However, their application in medical domains is hindered by two fundamental challenges: 1) misalignment between perceptual understanding and reasoning stages, and 2) inconsistency between reasoning pathways and answer generation, both compounded by the scarcity of high-quality medical datasets for effective large-scale RL. In this paper, we first introduce Med-Zero-17K, a curated dataset for pure RL-based training, encompassing over 30 medical image modalities and 24 clinical tasks. Moreover, we propose a novel large-scale RL framework for Med-VLMs, Consistency-Aware Preference Optimization (CAPO), which integrates rewards to ensure fidelity between perception and reasoning, consistency in reasoning-to-answer derivation, and rule-based accuracy for final responses. Extensive experiments on both in-domain and out-of-domain scenarios demonstrate the superiority of our method over strong VLM baselines, showcasing strong generalization capability to 3D Med-VQA benchmarks and R1-like training paradigms.
- Abstract(参考訳): 医学的視覚的質問応答(Med-VQA)では、正確な応答を達成するには、医用画像データの正確な認識、視覚的入力とテキスト的質問に基づく論理的推論、推論プロセスからの一貫性のある回答の導出の3つの重要なステップに依存する。
一般視覚言語モデル(VLM)の最近の進歩は、大規模強化学習(RL)が推論能力と全体的なモデル性能の両方を大幅に向上できることを示している。
しかし、医療分野への応用は2つの根本的な課題によって妨げられている。
1)知覚理解と推論段階の相違
2) 推論経路と回答生成の矛盾は, いずれも, 大規模RLを効果的に活用するために, 高品質な医療データセットの不足が原因である。
本稿では,30以上の医用画像モダリティと24の臨床的タスクを含む,純粋なRLベーストレーニングのためのキュレートデータセットであるMed-Zero-17Kを紹介する。
さらに,Med-VLM のための新しい大規模 RL フレームワークである Consistency-Aware Preference Optimization (CAPO) を提案する。
ドメイン内シナリオとドメイン外シナリオの両方において、強力なVLMベースラインよりもメソッドが優れていることを示し、3D Med-VQAベンチマークやR1のようなトレーニングパラダイムに強力な一般化能力を示す。
関連論文リスト
- Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然画像の推論において顕著な進歩を遂げているが、医療画像におけるその可能性はまだ探索されていない。
医用推論における一般化と信頼性の向上を目的とした強化学習(RL)による視覚言語モデルであるMed-R1を提案する。
我々はMed-R1を8つの異なる医用画像モダリティで評価した。
論文 参考訳(メタデータ) (2025-03-18T06:12:38Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning [29.84956540178252]
推論は、医用画像解析の進歩における重要なフロンティアである。
我々は、自然言語推論を明示的に生成する医療用VLMであるMedVLM-R1を紹介する。
MedVLM-R1の精度は、MRI、CT、X線ベンチマークで55.11%から78.22%に向上している。
論文 参考訳(メタデータ) (2025-02-26T23:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。