Fugu-MT 論文翻訳(概要): MediX-R1: Open Ended Medical Reinforcement Learning

論文の概要: MediX-R1: Open Ended Medical Reinforcement Learning

arxiv url: http://arxiv.org/abs/2602.23363v1
Date: Thu, 26 Feb 2026 18:59:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.865187
Title: MediX-R1: Open Ended Medical Reinforcement Learning
Title（参考訳）: MediX-R1:オープンエンド医療強化学習
Authors: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed, Mohamed Zidan, Fahad Khan, Salman Khan, Rao Anwer, Hisham Cholakkal,
Abstract要約: 医療用マルチモーダル大規模言語モデル(MLLM)のためのオープンな強化学習フレームワークであるMediX-R1を紹介する。 MediX-R1は、グループベースRLと医学的推論に適した複合報酬を備えたベースラインビジョンバックボーンを微調整する。以上の結果から,包括的報酬信号とLCMに基づく評価を併用したオープンエンドRLは,マルチモーダルモデルにおける信頼性の高い医療推論への実践的経路であることが示唆された。
参考スコア（独自算出の注目度）: 30.11159628872015
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce MediX-R1, an open-ended Reinforcement Learning (RL) framework for medical multimodal large language models (MLLMs) that enables clinically grounded, free-form answers beyond multiple-choice formats. MediX-R1 fine-tunes a baseline vision-language backbone with Group Based RL and a composite reward tailored for medical reasoning: an LLM-based accuracy reward that judges semantic correctness with a strict YES/NO decision, a medical embedding-based semantic reward to capture paraphrases and terminology variants, and lightweight format and modality rewards that enforce interpretable reasoning and modality recognition. This multi-signal design provides stable, informative feedback for open-ended outputs where traditional verifiable or MCQ-only rewards fall short. To measure progress, we propose a unified evaluation framework for both text-only and image+text tasks that uses a Reference-based LLM-as-judge in place of brittle string-overlap metrics, capturing semantic correctness, reasoning, and contextual alignment. Despite using only $\sim51$K instruction examples, MediX-R1 achieves excellent results across standard medical LLM (text-only) and VLM (image + text) benchmarks, outperforming strong open-source baselines and delivering particularly large gains on open-ended clinical tasks. Our results demonstrate that open-ended RL with comprehensive reward signals and LLM-based evaluation is a practical path toward reliable medical reasoning in multimodal models. Our trained models, curated datasets and source code are available at https://medix.cvmbzuai.com
Abstract（参考訳）: 医療用マルチモーダル大規模言語モデル(MLLM)のためのオープンな強化学習(RL)フレームワークであるMediX-R1を導入する。 MediX-R1は、グループベースRLでベースライン視覚言語バックボーンを微調整し、医学推論用に調整された複合報酬:厳密なYES/NO決定で意味的正当性を判断するLLMベースの精度報酬、パラフレーズや用語の変種をキャプチャする医療埋め込みベースのセマンティック報酬、解釈可能な推論とモダリティ認識を強制する軽量なフォーマットとモダリティ報酬である。この多信号設計は、従来の検証可能あるいはMCQのみの報酬が不足しているオープンエンド出力に対して、安定した情報的フィードバックを提供する。そこで本研究では,テキストのみと画像+テキストタスクの融合評価フレームワークを提案し,文字列オーバーラップの不安定な指標の代わりに参照ベースのLCM-as-judgeを用いて意味的正当性,推論,文脈的アライメントを抽出する。 MediX-R1は、$\sim51$Kのインストラクション例しか使用していないが、標準医療用LLM(text-only)とVLM(image + text)ベンチマークで優れた結果が得られる。以上の結果から,包括的報酬信号とLCMに基づく評価を併用したオープンエンドRLは,マルチモーダルモデルにおける信頼性の高い医療推論への実践的経路であることが示唆された。トレーニングされたモデル、キュレートされたデータセット、ソースコードはhttps://medix.cvmbzuai.comで公開されている。

関連論文リスト

A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T18:48:21Z)
MRG-R1: Reinforcement Learning for Clinically Aligned Medical Report Generation [23.22547135801011]
医療報告生成のための意味駆動型強化学習(SRL)手法を提案する。 SRLは、言語スタイルの模倣を超えた臨床的正確性に基づく学習を促進する。 IU X線とMIMIC-CXRの2つのデータセットを用いたSRLを用いた医療報告生成の評価を行った。
論文参考訳（メタデータ） (2025-12-18T03:57:55Z)
Enhancing the Medical Context-Awareness Ability of LLMs via Multifaceted Self-Refinement Learning [49.559151128219725]
大規模言語モデル(LLM)は医療分野で大きな可能性を示しており、いくつかのベンチマークで高いパフォーマンスを実現している。しかし、実際の医療シナリオではパフォーマンスが低下し続けており、コンテキスト認識の強化が要求されることが多い。データ駆動型アプローチであるMultifaceted Self-Refinement (MuSeR)を提案する。
論文参考訳（メタデータ） (2025-11-13T08:13:23Z)
MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文参考訳（メタデータ） (2025-10-24T02:11:05Z)
Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models [15.530083855947987]
我々は,Med-RwR を用いた最初のマルチモーダル医療推論フレームワークを提案する。 Med-RwRは、推論中に観察された症状やドメイン固有の医療概念を問い合わせることで、外部知識を積極的に回収する。様々な公開医療ベンチマークの評価は、Med-RwRのベースラインモデルに対する大幅な改善を示している。
論文参考訳（メタデータ） (2025-10-21T05:18:18Z)
MedREK: Retrieval-Based Editing for Medical LLMs with Key-Aware Prompts [70.64143198545031]
本稿では,情報誘導のための注目型プロンプトエンコーダと正確なマッチングのための共有クエリキーモジュールを統合した検索ベースの編集フレームワークであるMedREKを提案する。各種医用ベンチマークの結果から,MedREKは異なるコアメトリクス間で優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-10-15T12:50:33Z)
Exploring the Capabilities of LLM Encoders for Image-Text Retrieval in Chest X-rays [8.019362739504087]
視覚言語による事前訓練は画像とテキストのアライメントが進んでいるが、臨床報告の不均一性によって放射線学の進歩が制限されている。我々は,大規模言語モデル (LLM) エンコーダが,多様なスタイルにまたがる堅牢な臨床表現を提供できるかどうかを問う。胸部X線レポート用のドメイン適応エンコーダLLM2VEC4CXRと、このエンコーダとビジョンバックボーンを結合するデュアルトウワーフレームワークLLM2CLIP4CXRを紹介する。
論文参考訳（メタデータ） (2025-09-17T09:44:59Z)
Automating Expert-Level Medical Reasoning Evaluation of Large Language Models [26.702477426812333]
我々はMedThink-Benchを紹介した。MedThink-Benchは、大規模言語モデルの医学的推論の厳密で説明可能な、スケーラブルな評価のためのベンチマークである。また, LLM-as-a-Judge 機構と精細な有理性を利用した新しい評価フレームワーク LLM-w-Ref を提案する。全体として、MedThink-Bench は LLM の医学的推論を評価し、安全で責任ある臨床実践の展開を進めるための基礎的なツールを提供している。
論文参考訳（メタデータ） (2025-07-10T17:58:26Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
MedHallBench: A New Benchmark for Assessing Hallucination in Medical Large Language Models [0.0]
医療大言語モデル(MLLM)は医療応用の可能性を示している。幻覚に対する寛容性は、患者医療に重大なリスクをもたらす。本稿では,MLLMにおける幻覚の評価と緩和のためのベンチマークフレームワークであるMedHallBenchを紹介する。
論文参考訳（メタデータ） (2024-12-25T16:51:29Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。