論文の概要: MediX-R1: Open Ended Medical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.23363v1
- Date: Thu, 26 Feb 2026 18:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.865187
- Title: MediX-R1: Open Ended Medical Reinforcement Learning
- Title(参考訳): MediX-R1:オープンエンド医療強化学習
- Authors: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed, Mohamed Zidan, Fahad Khan, Salman Khan, Rao Anwer, Hisham Cholakkal,
- Abstract要約: 医療用マルチモーダル大規模言語モデル(MLLM)のためのオープンな強化学習フレームワークであるMediX-R1を紹介する。
MediX-R1は、グループベースRLと医学的推論に適した複合報酬を備えたベースラインビジョンバックボーンを微調整する。
以上の結果から,包括的報酬信号とLCMに基づく評価を併用したオープンエンドRLは,マルチモーダルモデルにおける信頼性の高い医療推論への実践的経路であることが示唆された。
- 参考スコア(独自算出の注目度): 30.11159628872015
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce MediX-R1, an open-ended Reinforcement Learning (RL) framework for medical multimodal large language models (MLLMs) that enables clinically grounded, free-form answers beyond multiple-choice formats. MediX-R1 fine-tunes a baseline vision-language backbone with Group Based RL and a composite reward tailored for medical reasoning: an LLM-based accuracy reward that judges semantic correctness with a strict YES/NO decision, a medical embedding-based semantic reward to capture paraphrases and terminology variants, and lightweight format and modality rewards that enforce interpretable reasoning and modality recognition. This multi-signal design provides stable, informative feedback for open-ended outputs where traditional verifiable or MCQ-only rewards fall short. To measure progress, we propose a unified evaluation framework for both text-only and image+text tasks that uses a Reference-based LLM-as-judge in place of brittle string-overlap metrics, capturing semantic correctness, reasoning, and contextual alignment. Despite using only $\sim51$K instruction examples, MediX-R1 achieves excellent results across standard medical LLM (text-only) and VLM (image + text) benchmarks, outperforming strong open-source baselines and delivering particularly large gains on open-ended clinical tasks. Our results demonstrate that open-ended RL with comprehensive reward signals and LLM-based evaluation is a practical path toward reliable medical reasoning in multimodal models. Our trained models, curated datasets and source code are available at https://medix.cvmbzuai.com
- Abstract(参考訳): 医療用マルチモーダル大規模言語モデル(MLLM)のためのオープンな強化学習(RL)フレームワークであるMediX-R1を導入する。
MediX-R1は、グループベースRLでベースライン視覚言語バックボーンを微調整し、医学推論用に調整された複合報酬:厳密なYES/NO決定で意味的正当性を判断するLLMベースの精度報酬、パラフレーズや用語の変種をキャプチャする医療埋め込みベースのセマンティック報酬、解釈可能な推論とモダリティ認識を強制する軽量なフォーマットとモダリティ報酬である。
この多信号設計は、従来の検証可能あるいはMCQのみの報酬が不足しているオープンエンド出力に対して、安定した情報的フィードバックを提供する。
そこで本研究では,テキストのみと画像+テキストタスクの融合評価フレームワークを提案し,文字列オーバーラップの不安定な指標の代わりに参照ベースのLCM-as-judgeを用いて意味的正当性,推論,文脈的アライメントを抽出する。
MediX-R1は、$\sim51$Kのインストラクション例しか使用していないが、標準医療用LLM(text-only)とVLM(image + text)ベンチマークで優れた結果が得られる。
以上の結果から,包括的報酬信号とLCMに基づく評価を併用したオープンエンドRLは,マルチモーダルモデルにおける信頼性の高い医療推論への実践的経路であることが示唆された。
トレーニングされたモデル、キュレートされたデータセット、ソースコードはhttps://medix.cvmbzuai.comで公開されている。
関連論文リスト
- A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - MRG-R1: Reinforcement Learning for Clinically Aligned Medical Report Generation [23.22547135801011]
医療報告生成のための意味駆動型強化学習(SRL)手法を提案する。
SRLは、言語スタイルの模倣を超えた臨床的正確性に基づく学習を促進する。
IU X線とMIMIC-CXRの2つのデータセットを用いたSRLを用いた医療報告生成の評価を行った。
論文 参考訳(メタデータ) (2025-12-18T03:57:55Z) - Enhancing the Medical Context-Awareness Ability of LLMs via Multifaceted Self-Refinement Learning [49.559151128219725]
大規模言語モデル(LLM)は医療分野で大きな可能性を示しており、いくつかのベンチマークで高いパフォーマンスを実現している。
しかし、実際の医療シナリオではパフォーマンスが低下し続けており、コンテキスト認識の強化が要求されることが多い。
データ駆動型アプローチであるMultifaceted Self-Refinement (MuSeR)を提案する。
論文 参考訳(メタデータ) (2025-11-13T08:13:23Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MedHallBench: A New Benchmark for Assessing Hallucination in Medical Large Language Models [0.0]
医療大言語モデル(MLLM)は医療応用の可能性を示している。
幻覚に対する寛容性は、患者医療に重大なリスクをもたらす。
本稿では,MLLMにおける幻覚の評価と緩和のためのベンチマークフレームワークであるMedHallBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-25T16:51:29Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。