論文の概要: CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making
- arxiv url: http://arxiv.org/abs/2506.12849v1
- Date: Sun, 15 Jun 2025 13:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.001132
- Title: CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making
- Title(参考訳): CAPO:医学的意思決定における一貫性推論の強化
- Authors: Songtao Jiang, Yuan Wang, Ruizhe Chen, Yan Zhang, Ruilin Luo, Bohan Lei, Sibo Song, Yang Feng, Jimeng Sun, Jian Wu, Zuozhu Liu,
- Abstract要約: Med-Zero-17Kは、純粋なRLベースのトレーニングのためのキュレートされたデータセットであり、30以上の医療画像モダリティと24の臨床的タスクを含んでいる。
本稿では,Med-VLM のための大規模 RL フレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.28216499263317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In medical visual question answering (Med-VQA), achieving accurate responses relies on three critical steps: precise perception of medical imaging data, logical reasoning grounded in visual input and textual questions, and coherent answer derivation from the reasoning process. Recent advances in general vision-language models (VLMs) show that large-scale reinforcement learning (RL) could significantly enhance both reasoning capabilities and overall model performance. However, their application in medical domains is hindered by two fundamental challenges: 1) misalignment between perceptual understanding and reasoning stages, and 2) inconsistency between reasoning pathways and answer generation, both compounded by the scarcity of high-quality medical datasets for effective large-scale RL. In this paper, we first introduce Med-Zero-17K, a curated dataset for pure RL-based training, encompassing over 30 medical image modalities and 24 clinical tasks. Moreover, we propose a novel large-scale RL framework for Med-VLMs, Consistency-Aware Preference Optimization (CAPO), which integrates rewards to ensure fidelity between perception and reasoning, consistency in reasoning-to-answer derivation, and rule-based accuracy for final responses. Extensive experiments on both in-domain and out-of-domain scenarios demonstrate the superiority of our method over strong VLM baselines, showcasing strong generalization capability to 3D Med-VQA benchmarks and R1-like training paradigms.
- Abstract(参考訳): 医学的視覚的質問応答(Med-VQA)では、正確な応答を達成するには、医用画像データの正確な認識、視覚的入力とテキスト的質問に基づく論理的推論、推論プロセスからの一貫性のある回答の導出の3つの重要なステップに依存する。
一般視覚言語モデル(VLM)の最近の進歩は、大規模強化学習(RL)が推論能力と全体的なモデル性能の両方を大幅に向上できることを示している。
しかし、医療分野への応用は2つの根本的な課題によって妨げられている。
1)知覚理解と推論段階の相違
2) 推論経路と回答生成の矛盾は, いずれも, 大規模RLを効果的に活用するために, 高品質な医療データセットの不足が原因である。
本稿では,30以上の医用画像モダリティと24の臨床的タスクを含む,純粋なRLベーストレーニングのためのキュレートデータセットであるMed-Zero-17Kを紹介する。
さらに,Med-VLM のための新しい大規模 RL フレームワークである Consistency-Aware Preference Optimization (CAPO) を提案する。
ドメイン内シナリオとドメイン外シナリオの両方において、強力なVLMベースラインよりもメソッドが優れていることを示し、3D Med-VQAベンチマークやR1のようなトレーニングパラダイムに強力な一般化能力を示す。
関連論文リスト
- Med-R$^3$: Enhancing Medical Retrieval-Augmented Reasoning of LLMs via Progressive Reinforcement Learning [31.58210903685538]
本稿では、**Med-R$3$*, a*Med*ical **R**etrieval-augmented **R**easoning framework driven by Progress **R**einforcement learningを紹介する。
本稿ではまず,医学的問題に対する論理的推論を行うモデルの開発を行う。
次に,知識コーパスの特性と外部情報の利用性に適合するように,検索機能を適応的に最適化する。
論文 参考訳(メタデータ) (2025-07-31T13:31:01Z) - How Far Have Medical Vision-Language Models Come? A Comprehensive Benchmarking Study [16.84832179579428]
VLM(Vision-Language Models)は、Webスケールのコーパスを訓練し、自然画像のタスクに優れ、医療に利用されつつある。
本稿では,8つのベンチマークを用いて,オープンソース汎用および医療専門のVLMの総合評価を行う。
まず、大規模な汎用モデルは、いくつかのベンチマークで、すでに医学固有のモデルと一致しているか、あるいは超えている。
第二に、推論のパフォーマンスは理解よりも一貫して低く、安全な意思決定支援にとって重要な障壁を強調します。
論文 参考訳(メタデータ) (2025-07-15T11:12:39Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。
この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。
本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - RARL: Improving Medical VLM Reasoning and Generalization with Reinforcement Learning and LoRA under Data and Hardware Constraints [0.0]
Reasoning-Aware Reinforcement Learning frameworkは、医療ビジョン言語モデルの推論能力を高める。
低ランク適応とカスタム報酬関数を用いた軽量ベースモデルQwen2-VL-2B-Instructを微調整する。
RARLは医用画像解析および臨床推論におけるVLM性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2025-06-07T00:26:23Z) - Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然画像の推論において顕著な進歩を遂げているが、医療画像におけるその可能性はまだ探索されていない。
医用推論における一般化と信頼性の向上を目的とした強化学習(RL)による視覚言語モデルであるMed-R1を提案する。
我々はMed-R1を8つの異なる医用画像モダリティで評価した。
論文 参考訳(メタデータ) (2025-03-18T06:12:38Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning [29.84956540178252]
推論は、医用画像解析の進歩における重要なフロンティアである。
我々は、自然言語推論を明示的に生成する医療用VLMであるMedVLM-R1を紹介する。
MedVLM-R1の精度は、MRI、CT、X線ベンチマークで55.11%から78.22%に向上している。
論文 参考訳(メタデータ) (2025-02-26T23:57:34Z) - Robust and Efficient Medical Imaging with Self-Supervision [80.62711706785834]
医用画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略であるREMEDISを提案する。
様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。
論文 参考訳(メタデータ) (2022-05-19T17:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。