論文の概要: GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning
- arxiv url: http://arxiv.org/abs/2504.01886v1
- Date: Wed, 02 Apr 2025 16:43:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:14.472427
- Title: GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning
- Title(参考訳): GMAI-VL-R1:マルチモーダル医療推論のためのハーネスング強化学習
- Authors: Yanzhou Su, Tianbin Li, Jiyao Liu, Chenglong Ma, Junzhi Ning, Cheng Tang, Sibo Ju, Jin Ye, Pengcheng Chen, Ming Hu, Shixiang Tang, Lihao Liu, Bin Fu, Wenqi Shao, Xiaowei Hu, Xiangwen Liao, Yuanfeng Ji, Junjun He,
- Abstract要約: 本稿では,強化学習(RL)により強化されたマルチモーダル医療推論モデルGMAI-VL-R1について述べる。
本稿では, モデル一般化をさらに促進する推論データ合成法を開発し, 回帰サンプリングによるステップバイステップの推論データを生成する。
RL訓練後,GMAI-VL-R1は画像診断や視覚的質問応答などのタスクに優れていた。
- 参考スコア(独自算出の注目度): 28.911445780180077
- License:
- Abstract: Recent advances in general medical AI have made significant strides, but existing models often lack the reasoning capabilities needed for complex medical decision-making. This paper presents GMAI-VL-R1, a multimodal medical reasoning model enhanced by reinforcement learning (RL) to improve its reasoning abilities. Through iterative training, GMAI-VL-R1 optimizes decision-making, significantly boosting diagnostic accuracy and clinical support. We also develop a reasoning data synthesis method, generating step-by-step reasoning data via rejection sampling, which further enhances the model's generalization. Experimental results show that after RL training, GMAI-VL-R1 excels in tasks such as medical image diagnosis and visual question answering. While the model demonstrates basic memorization with supervised fine-tuning, RL is crucial for true generalization. Our work establishes new evaluation benchmarks and paves the way for future advancements in medical reasoning models. Code, data, and model will be released at \href{https://github.com/uni-medical/GMAI-VL-R1}{this link}.
- Abstract(参考訳): 近年の医療AIの進歩は大きな進歩を遂げているが、既存のモデルは複雑な医療意思決定に必要な推論能力に欠けることが多い。
本稿では,強化学習(RL)により強化されたマルチモーダル医療推論モデルGMAI-VL-R1について述べる。
反復トレーニングにより、GMAI-VL-R1は意思決定を最適化し、診断精度と臨床サポートを大幅に向上させる。
また, モデル一般化をさらに促進する推論データ合成手法を開発し, 回帰サンプリングによるステップバイステップの推論データを生成する。
RL訓練後, GMAI-VL-R1は画像診断や視覚的質問応答などのタスクに優れていた。
モデルは教師付き微調整による基本的な記憶を示すが、真の一般化にはRLが不可欠である。
我々の研究は、新しい評価ベンチマークを確立し、医療推論モデルの将来的な進歩の道を開く。
コード、データ、モデルは \href{https://github.com/uni-medical/GMAI-VL-R1}{this link} でリリースされる。
関連論文リスト
- Towards a perturbation-based explanation for medical AI as differentiable programs [0.0]
医学や医療では、AIモデルが生み出す結果の十分かつ客観的な説明可能性に対して、特に要求がある。
本研究では,入力に加わった小さな摂動に対するモデル応答を安定に測定する,ディープラーニングモデルのヤコビ行列の数値的可用性について検討する。
これは摂動に基づく説明への第一歩であり、臨床応用におけるAIモデルの反応を理解し解釈する医療実践者を支援する。
論文 参考訳(メタデータ) (2025-02-19T07:56:23Z) - O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning [27.827761004918106]
この研究は、医学的推論タスクのための大規模言語モデル(LLM)における推論時間スケーリングの可能性を探るものである。
500サンプルを適度にトレーニングすることで,本モデルでは6%-11%の性能向上を実現した。
論文 参考訳(メタデータ) (2025-01-11T07:10:23Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在のアセスメント手法は、従来のタスクからAIアノテートされた好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがるベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Assessing Reusability of Deep Learning-Based Monotherapy Drug Response Prediction Models Trained with Omics Data [43.57729817547386]
がん薬物応答予測モデルは、精度オンコロジーへの有望なアプローチを示す。
深層学習(DL)法はこの分野で大きな可能性を秘めている。
これは、より広い科学コミュニティによって改善され、テストされる、再利用可能で適応可能なモデルの必要性を強調している。
論文 参考訳(メタデータ) (2024-09-18T16:08:28Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - GENIE-NF-AI: Identifying Neurofibromatosis Tumors using Liquid Neural
Network (LTC) trained on AACR GENIE Datasets [0.0]
神経線維腫症を診断するための解釈可能なAIアプローチを提案する。
提案手法は99.86%の精度で既存モデルより優れていた。
論文 参考訳(メタデータ) (2023-04-26T10:28:59Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。