Fugu-MT 論文翻訳(概要): Improving Medical Reasoning with Curriculum-Aware Reinforcement Learning

論文の概要: Improving Medical Reasoning with Curriculum-Aware Reinforcement Learning

arxiv url: http://arxiv.org/abs/2505.19213v1
Date: Sun, 25 May 2025 16:20:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.982793
Title: Improving Medical Reasoning with Curriculum-Aware Reinforcement Learning
Title（参考訳）: カリキュラム・アウェア強化学習による医学的推論の改善
Authors: Shaohao Rui, Kaitao Chen, Weijie Ma, Xiaosong Wang,
Abstract要約: 医療用VQAに適した,最初のマルチモーダル強化学習フレームワークである textbfMedCCO を紹介する。 MedCCOは、さまざまな医療用VQAタスクに基づいて微調整され、ドメイン基底推論機能を確立する。 MedCCOを8つの挑戦的な医療用VQAベンチマークで検証し、クローズドな設定とオープンな設定の両方にまたがる。
参考スコア（独自算出の注目度）: 2.262453679768892
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in reinforcement learning with verifiable, rule-based rewards have greatly enhanced the reasoning capabilities and out-of-distribution generalization of VLMs/LLMs, obviating the need for manually crafted reasoning chains. Despite these promising developments in the general domain, their translation to medical imaging remains limited. Current medical reinforcement fine-tuning (RFT) methods predominantly focus on close-ended VQA, thereby restricting the model's ability to engage in world knowledge retrieval and flexible task adaptation. More critically, these methods fall short of addressing the critical clinical demand for open-ended, reasoning-intensive decision-making. To bridge this gap, we introduce \textbf{MedCCO}, the first multimodal reinforcement learning framework tailored for medical VQA that unifies close-ended and open-ended data within a curriculum-driven RFT paradigm. Specifically, MedCCO is initially fine-tuned on a diverse set of close-ended medical VQA tasks to establish domain-grounded reasoning capabilities, and is then progressively adapted to open-ended tasks to foster deeper knowledge enhancement and clinical interpretability. We validate MedCCO across eight challenging medical VQA benchmarks, spanning both close-ended and open-ended settings. Experimental results show that MedCCO consistently enhances performance and generalization, achieving a 11.4\% accuracy gain across three in-domain tasks, and a 5.7\% improvement on five out-of-domain benchmarks. These findings highlight the promise of curriculum-guided RL in advancing robust, clinically-relevant reasoning in medical multimodal language models.
Abstract（参考訳）: 近年、検証可能な規則に基づく報酬による強化学習の進歩により、VLM/LLMの推論能力とアウト・オブ・ディストリビューションの一般化が大幅に向上し、手作業による推論チェーンの必要性が回避された。一般領域におけるこれらの有望な発展にもかかわらず、医療画像への翻訳は依然として限られている。現在の医療強化微調整法(RFT)は、主に密接なVQAに焦点を当てており、これにより、世界知識の検索と柔軟なタスク適応に関わるモデルの能力を制限する。より重要なことは、これらの手法は、オープンエンドな推論集約的な意思決定に対する重要な臨床要求に対応できないことである。このギャップを埋めるために,医療用VQA用に開発された最初のマルチモーダル強化学習フレームワークである‘textbf{MedCCO} を導入する。特に、MedCCOは、ドメイン基底推論能力を確立するために、様々な閉じた医療用VQAタスクに微調整され、その後、より深い知識向上と臨床解釈性を促進するために、徐々にオープンなタスクに適応する。 MedCCOを8つの挑戦的な医療用VQAベンチマークで検証し、クローズドな設定とオープンな設定の両方にまたがる。 MedCCOは3つのドメイン内タスクに対して11.4\%の精度向上を実現し、5つのドメイン外ベンチマークで5.7%の精度向上を実現している。これらの知見は, 医療用マルチモーダル言語モデルにおいて, 堅牢で臨床的に関連のある推論を推し進める上で, カリキュラム誘導型RLが期待できることを浮き彫りにした。

関連論文リスト

Med-R$^3$: Enhancing Medical Retrieval-Augmented Reasoning of LLMs via Progressive Reinforcement Learning [31.58210903685538]
本稿では、**Med-R$3$*, a*Med*ical **R**etrieval-augmented **R**easoning framework driven by Progress **R**einforcement learningを紹介する。本稿ではまず,医学的問題に対する論理的推論を行うモデルの開発を行う。次に,知識コーパスの特性と外部情報の利用性に適合するように,検索機能を適応的に最適化する。
論文参考訳（メタデータ） (2025-07-31T13:31:01Z)
Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making [42.28216499263317]
Med-Zero-17Kは、純粋なRLベースのトレーニングのためのキュレートされたデータセットであり、30以上の医療画像モダリティと24の臨床的タスクを含んでいる。本稿では,Med-VLM のための大規模 RL フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-15T13:42:46Z)
RARL: Improving Medical VLM Reasoning and Generalization with Reinforcement Learning and LoRA under Data and Hardware Constraints [0.0]
Reasoning-Aware Reinforcement Learning frameworkは、医療ビジョン言語モデルの推論能力を高める。低ランク適応とカスタム報酬関数を用いた軽量ベースモデルQwen2-VL-2B-Instructを微調整する。 RARLは医用画像解析および臨床推論におけるVLM性能を著しく改善することを示した。
論文参考訳（メタデータ） (2025-06-07T00:26:23Z)
QoQ-Med: Building Multimodal Clinical Foundation Models with Domain-Aware GRPO Training [27.457139119626884]
QoQ-Medは、医療画像、時系列信号、およびテキストレポートを共同で原因付ける、最初のオープン・ジェネラリスト臨床基礎モデルである。 DRPOトレーニングは,すべての視覚領域において,マクロF1の診断性能を平均43%向上させることを示した。 QoQ-Medは集中的なセグメンテーションデータに基づいてトレーニングされており、オープンモデルよりもIoU 10倍高い、診断に関連する健全な領域をハイライトすることができる。
論文参考訳（メタデータ） (2025-05-31T21:02:52Z)
Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然画像の推論において顕著な進歩を遂げているが、医療画像におけるその可能性はまだ探索されていない。医用推論における一般化と信頼性の向上を目的とした強化学習(RL)による視覚言語モデルであるMed-R1を提案する。我々はMed-R1を8つの異なる医用画像モダリティで評価した。
論文参考訳（メタデータ） (2025-03-18T06:12:38Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning [29.84956540178252]
推論は、医用画像解析の進歩における重要なフロンティアである。我々は、自然言語推論を明示的に生成する医療用VLMであるMedVLM-R1を紹介する。 MedVLM-R1の精度は、MRI、CT、X線ベンチマークで55.11%から78.22%に向上している。
論文参考訳（メタデータ） (2025-02-26T23:57:34Z)
LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文参考訳（メタデータ） (2024-12-31T19:55:45Z)
MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。生体画像検査における解釈可能性と精度を高めるように設計されている。 4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文参考訳（メタデータ） (2024-12-18T11:14:02Z)
Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文参考訳（メタデータ） (2024-12-02T15:25:02Z)
Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。 MIMIC-IIIでは最大10.8～15.0%、MIMIC-IVでは12.6～12.7%である。
論文参考訳（メタデータ） (2024-10-06T18:46:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。