Fugu-MT 論文翻訳(概要): GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning

論文の概要: GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning

arxiv url: http://arxiv.org/abs/2504.01886v1
Date: Wed, 02 Apr 2025 16:43:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 19:59:19.438082
Title: GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning
Title（参考訳）: GMAI-VL-R1:マルチモーダル医療推論のためのハーネスング強化学習
Authors: Yanzhou Su, Tianbin Li, Jiyao Liu, Chenglong Ma, Junzhi Ning, Cheng Tang, Sibo Ju, Jin Ye, Pengcheng Chen, Ming Hu, Shixiang Tang, Lihao Liu, Bin Fu, Wenqi Shao, Xiaowei Hu, Xiangwen Liao, Yuanfeng Ji, Junjun He,
Abstract要約: 本稿では,強化学習(RL)により強化されたマルチモーダル医療推論モデルGMAI-VL-R1について述べる。本稿では, モデル一般化をさらに促進する推論データ合成法を開発し, 回帰サンプリングによるステップバイステップの推論データを生成する。 RL訓練後,GMAI-VL-R1は画像診断や視覚的質問応答などのタスクに優れていた。
参考スコア（独自算出の注目度）: 28.911445780180077
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in general medical AI have made significant strides, but existing models often lack the reasoning capabilities needed for complex medical decision-making. This paper presents GMAI-VL-R1, a multimodal medical reasoning model enhanced by reinforcement learning (RL) to improve its reasoning abilities. Through iterative training, GMAI-VL-R1 optimizes decision-making, significantly boosting diagnostic accuracy and clinical support. We also develop a reasoning data synthesis method, generating step-by-step reasoning data via rejection sampling, which further enhances the model's generalization. Experimental results show that after RL training, GMAI-VL-R1 excels in tasks such as medical image diagnosis and visual question answering. While the model demonstrates basic memorization with supervised fine-tuning, RL is crucial for true generalization. Our work establishes new evaluation benchmarks and paves the way for future advancements in medical reasoning models. Code, data, and model will be released at \href{https://github.com/uni-medical/GMAI-VL-R1}{this link}.
Abstract（参考訳）: 近年の医療AIの進歩は大きな進歩を遂げているが、既存のモデルは複雑な医療意思決定に必要な推論能力に欠けることが多い。本稿では,強化学習(RL)により強化されたマルチモーダル医療推論モデルGMAI-VL-R1について述べる。反復トレーニングにより、GMAI-VL-R1は意思決定を最適化し、診断精度と臨床サポートを大幅に向上させる。また, モデル一般化をさらに促進する推論データ合成手法を開発し, 回帰サンプリングによるステップバイステップの推論データを生成する。 RL訓練後, GMAI-VL-R1は画像診断や視覚的質問応答などのタスクに優れていた。モデルは教師付き微調整による基本的な記憶を示すが、真の一般化にはRLが不可欠である。我々の研究は、新しい評価ベンチマークを確立し、医療推論モデルの将来的な進歩の道を開く。コード、データ、モデルは \href{https://github.com/uni-medical/GMAI-VL-R1}{this link} でリリースされる。

関連論文リスト

MedVLThinker: Simple Baselines for Multimodal Medical Reasoning [21.849783391186754]
MedVLThinkerは、推論中心の医療用LMMを構築するための、シンプルだが強力なベースラインのスイートである。完全オープンなレシピは,(1) テキストのみとイメージテキストの両方の医療データに対する体系的なデータキュレーション,(2) 推論の難易度に応じてフィルタリング,(2) 学習パラダイム: 蒸留された推論トレースの超微調整(SFT) および最終回答の正しさに基づく強化学習(RLVR) から構成される。
論文参考訳（メタデータ） (2025-08-04T17:59:38Z)
CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making [42.28216499263317]
Med-Zero-17Kは、純粋なRLベースのトレーニングのためのキュレートされたデータセットであり、30以上の医療画像モダリティと24の臨床的タスクを含んでいる。本稿では,Med-VLM のための大規模 RL フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-15T13:42:46Z)
RARL: Improving Medical VLM Reasoning and Generalization with Reinforcement Learning and LoRA under Data and Hardware Constraints [0.0]
Reasoning-Aware Reinforcement Learning frameworkは、医療ビジョン言語モデルの推論能力を高める。低ランク適応とカスタム報酬関数を用いた軽量ベースモデルQwen2-VL-2B-Instructを微調整する。 RARLは医用画像解析および臨床推論におけるVLM性能を著しく改善することを示した。
論文参考訳（メタデータ） (2025-06-07T00:26:23Z)
ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文参考訳（メタデータ） (2025-04-29T16:48:23Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然の場面で高度な推論を行うが、医療画像におけるその役割は未解明のままである。医用推論におけるVLMの一般化性と信頼性を高めるための強化学習を探求するフレームワークであるMed-R1を紹介する。 Med-R1は、CT, MRI, Ultrasound, Dermoscopy, Fundus Photography, Optical Coherence Tomography, Microscopy, X-ray Imagingの8つの画像モダリティで評価されている。
論文参考訳（メタデータ） (2025-03-18T06:12:38Z)
Med-RLVR: Emerging Medical Reasoning from a 3B base model via reinforcement Learning [19.064630697040055]
検証可能な報酬 (RLVR) からの強化学習は, 明確な推論監督なしに, ベース言語モデルから自己進化推論を引き出す能力に注目が集まっている。医療領域におけるRLVRの初期研究として,MCQA(Med-RLVR)データを検証ラベルとして活用したMed-RLVRを紹介した。以上の結果から,RLVRは数学やコーディングに有効であるだけでなく,医学的質問応答にも有効であることが示された。
論文参考訳（メタデータ） (2025-02-27T00:54:38Z)
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning [29.84956540178252]
推論は、医用画像解析の進歩における重要なフロンティアである。我々は、自然言語推論を明示的に生成する医療用VLMであるMedVLM-R1を紹介する。 MedVLM-R1の精度は、MRI、CT、X線ベンチマークで55.11%から78.22%に向上している。
論文参考訳（メタデータ） (2025-02-26T23:57:34Z)
Towards a perturbation-based explanation for medical AI as differentiable programs [0.0]
医学や医療では、AIモデルが生み出す結果の十分かつ客観的な説明可能性に対して、特に要求がある。本研究では,入力に加わった小さな摂動に対するモデル応答を安定に測定する,ディープラーニングモデルのヤコビ行列の数値的可用性について検討する。これは摂動に基づく説明への第一歩であり、臨床応用におけるAIモデルの反応を理解し解釈する医療実践者を支援する。
論文参考訳（メタデータ） (2025-02-19T07:56:23Z)
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文参考訳（メタデータ） (2024-10-16T23:03:27Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
GENIE-NF-AI: Identifying Neurofibromatosis Tumors using Liquid Neural Network (LTC) trained on AACR GENIE Datasets [0.0]
神経線維腫症を診断するための解釈可能なAIアプローチを提案する。提案手法は99.86%の精度で既存モデルより優れていた。
論文参考訳（メタデータ） (2023-04-26T10:28:59Z)
Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-04-26T01:26:19Z)
Competence-based Multimodal Curriculum Learning for Medical Report Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文参考訳（メタデータ） (2022-06-24T08:16:01Z)
A multi-stage machine learning model on diagnosis of esophageal manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文参考訳（メタデータ） (2021-06-25T20:09:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。