論文の概要: GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning
- arxiv url: http://arxiv.org/abs/2504.01886v1
- Date: Wed, 02 Apr 2025 16:43:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 19:59:19.438082
- Title: GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning
- Title(参考訳): GMAI-VL-R1:マルチモーダル医療推論のためのハーネスング強化学習
- Authors: Yanzhou Su, Tianbin Li, Jiyao Liu, Chenglong Ma, Junzhi Ning, Cheng Tang, Sibo Ju, Jin Ye, Pengcheng Chen, Ming Hu, Shixiang Tang, Lihao Liu, Bin Fu, Wenqi Shao, Xiaowei Hu, Xiangwen Liao, Yuanfeng Ji, Junjun He,
- Abstract要約: 本稿では,強化学習(RL)により強化されたマルチモーダル医療推論モデルGMAI-VL-R1について述べる。
本稿では, モデル一般化をさらに促進する推論データ合成法を開発し, 回帰サンプリングによるステップバイステップの推論データを生成する。
RL訓練後,GMAI-VL-R1は画像診断や視覚的質問応答などのタスクに優れていた。
- 参考スコア(独自算出の注目度): 28.911445780180077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in general medical AI have made significant strides, but existing models often lack the reasoning capabilities needed for complex medical decision-making. This paper presents GMAI-VL-R1, a multimodal medical reasoning model enhanced by reinforcement learning (RL) to improve its reasoning abilities. Through iterative training, GMAI-VL-R1 optimizes decision-making, significantly boosting diagnostic accuracy and clinical support. We also develop a reasoning data synthesis method, generating step-by-step reasoning data via rejection sampling, which further enhances the model's generalization. Experimental results show that after RL training, GMAI-VL-R1 excels in tasks such as medical image diagnosis and visual question answering. While the model demonstrates basic memorization with supervised fine-tuning, RL is crucial for true generalization. Our work establishes new evaluation benchmarks and paves the way for future advancements in medical reasoning models. Code, data, and model will be released at \href{https://github.com/uni-medical/GMAI-VL-R1}{this link}.
- Abstract(参考訳): 近年の医療AIの進歩は大きな進歩を遂げているが、既存のモデルは複雑な医療意思決定に必要な推論能力に欠けることが多い。
本稿では,強化学習(RL)により強化されたマルチモーダル医療推論モデルGMAI-VL-R1について述べる。
反復トレーニングにより、GMAI-VL-R1は意思決定を最適化し、診断精度と臨床サポートを大幅に向上させる。
また, モデル一般化をさらに促進する推論データ合成手法を開発し, 回帰サンプリングによるステップバイステップの推論データを生成する。
RL訓練後, GMAI-VL-R1は画像診断や視覚的質問応答などのタスクに優れていた。
モデルは教師付き微調整による基本的な記憶を示すが、真の一般化にはRLが不可欠である。
我々の研究は、新しい評価ベンチマークを確立し、医療推論モデルの将来的な進歩の道を開く。
コード、データ、モデルは \href{https://github.com/uni-medical/GMAI-VL-R1}{this link} でリリースされる。
関連論文リスト
- ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然の場面で高度な推論を行うが、医療画像におけるその役割は未解明のままである。
医用推論におけるVLMの一般化性と信頼性を高めるための強化学習を探求するフレームワークであるMed-R1を紹介する。
Med-R1は、CT, MRI, Ultrasound, Dermoscopy, Fundus Photography, Optical Coherence Tomography, Microscopy, X-ray Imagingの8つの画像モダリティで評価されている。
論文 参考訳(メタデータ) (2025-03-18T06:12:38Z) - Med-RLVR: Emerging Medical Reasoning from a 3B base model via reinforcement Learning [19.064630697040055]
検証可能な報酬 (RLVR) からの強化学習は, 明確な推論監督なしに, ベース言語モデルから自己進化推論を引き出す能力に注目が集まっている。
医療領域におけるRLVRの初期研究として,MCQA(Med-RLVR)データを検証ラベルとして活用したMed-RLVRを紹介した。
以上の結果から,RLVRは数学やコーディングに有効であるだけでなく,医学的質問応答にも有効であることが示された。
論文 参考訳(メタデータ) (2025-02-27T00:54:38Z) - MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning [29.84956540178252]
推論は、医用画像解析の進歩における重要なフロンティアである。
我々は、自然言語推論を明示的に生成する医療用VLMであるMedVLM-R1を紹介する。
MedVLM-R1の精度は、MRI、CT、X線ベンチマークで55.11%から78.22%に向上している。
論文 参考訳(メタデータ) (2025-02-26T23:57:34Z) - Towards a perturbation-based explanation for medical AI as differentiable programs [0.0]
医学や医療では、AIモデルが生み出す結果の十分かつ客観的な説明可能性に対して、特に要求がある。
本研究では,入力に加わった小さな摂動に対するモデル応答を安定に測定する,ディープラーニングモデルのヤコビ行列の数値的可用性について検討する。
これは摂動に基づく説明への第一歩であり、臨床応用におけるAIモデルの反応を理解し解釈する医療実践者を支援する。
論文 参考訳(メタデータ) (2025-02-19T07:56:23Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - GENIE-NF-AI: Identifying Neurofibromatosis Tumors using Liquid Neural
Network (LTC) trained on AACR GENIE Datasets [0.0]
神経線維腫症を診断するための解釈可能なAIアプローチを提案する。
提案手法は99.86%の精度で既存モデルより優れていた。
論文 参考訳(メタデータ) (2023-04-26T10:28:59Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。