Fugu-MT 論文翻訳(概要): Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models

論文の概要: Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models

arxiv url: http://arxiv.org/abs/2503.13939v3
Date: Sat, 29 Mar 2025 16:37:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 15:20:32.50865
Title: Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models
Title（参考訳）: Med-R1:視覚言語モデルにおける一般化可能な医療推論のための強化学習
Authors: Yuxiang Lai, Jike Zhong, Ming Li, Shitian Zhao, Xiaofeng Yang,
Abstract要約: 視覚言語モデル(VLM)は、自然の場面で高度な推論を行うが、医療画像におけるその役割は未解明のままである。医用推論におけるVLMの一般化性と信頼性を高めるための強化学習を探求するフレームワークであるMed-R1を紹介する。 Med-R1は、CT, MRI, Ultrasound, Dermoscopy, Fundus Photography, Optical Coherence Tomography, Microscopy, X-ray Imagingの8つの画像モダリティで評価されている。
参考スコア（独自算出の注目度）: 6.176432104264649
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) have advanced reasoning in natural scenes, but their role in medical imaging remains underexplored. Medical reasoning tasks demand robust image analysis and well-justified answers, posing challenges due to the complexity of medical images. Transparency and trustworthiness are essential for clinical adoption and regulatory compliance. We introduce Med-R1, a framework exploring reinforcement learning (RL) to enhance VLMs' generalizability and trustworthiness in medical reasoning. Leveraging the DeepSeek strategy, we employ Group Relative Policy Optimization (GRPO) to guide reasoning paths via reward signals. Unlike supervised fine-tuning (SFT), which often overfits and lacks generalization, RL fosters robust and diverse reasoning. Med-R1 is evaluated across eight medical imaging modalities: CT, MRI, Ultrasound, Dermoscopy, Fundus Photography, Optical Coherence Tomography (OCT), Microscopy, and X-ray Imaging. Compared to its base model, Qwen2-VL-2B, Med-R1 achieves a 29.94% accuracy improvement and outperforms Qwen2-VL-72B, which has 36 times more parameters. Testing across five question types-modality recognition, anatomy identification, disease diagnosis, lesion grading, and biological attribute analysis Med-R1 demonstrates superior generalization, exceeding Qwen2-VL-2B by 32.06% and surpassing Qwen2-VL-72B in question-type generalization. These findings show that RL improves medical reasoning and enables parameter-efficient models to outperform significantly larger ones. By demonstrating strong cross-domain and cross-task performance, Med-R1 points toward a new direction for developing practical and generalizable medical VLMs.
Abstract（参考訳）: 視覚言語モデル(VLM)は、自然の場面で高度な推論を行うが、医療画像におけるその役割は未解明のままである。医学的推論タスクは、堅牢な画像分析と適切な回答を必要とし、医療画像の複雑さのために課題を提起する。透明性と信頼性は、臨床導入と規制遵守に不可欠である。本稿では,医療推論におけるVLMの一般化性と信頼性を高めるために,強化学習(RL)を探求するフレームワークであるMed-R1を紹介する。 DeepSeek戦略を活用することで、報酬信号による推論経路のガイドにグループ相対政策最適化(GRPO)を採用する。教師付き微調整(SFT)とは異なり、RLは頑丈で多様な推論を奨励する。 Med-R1は、CT, MRI, Ultrasound, Dermoscopy, Fundus Photography, Optical Coherence Tomography (OCT), Microscopy, X-ray Imagingの8つの画像モダリティで評価されている。ベースモデルであるQwen2-VL-2Bと比較して、Med-R1は精度が29.94%向上し、36倍のパラメータを持つQwen2-VL-72Bを上回っている。 Med-R1はQwen2-VL-2Bを32.06%上回り、Qwen2-VL-72Bを32.06%上回り、Qwen2-VL-72Bを上回っている。以上の結果から,RLは医学的推論を改善し,パラメータ効率のモデルがかなり大きなモデルより優れていることが示唆された。クロスドメインとクロスタスクのパフォーマンスを示すことで、Med-R1は実用的で汎用的な医療用VLMを開発するための新たな方向性を指している。

関連論文リスト

MedAD-R1: Eliciting Consistent Reasoning in Interpretible Medical Anomaly Detection via Consistency-Reinforced Policy Optimization [46.65200216642429]
我々はMedADの最初の大規模マルチモーダル・マルチセンタベンチマークであるMedAD-38Kを紹介し、構造化された視覚質問応答(VQA)ペアとともに、CoT(Chain-of-Thought)アノテーションを特徴付ける。提案するモデルであるMedAD-R1は、MedAD-38Kベンチマーク上での最先端(SOTA)性能を実現し、強いベースラインを10%以上上回った。
論文参考訳（メタデータ） (2026-02-01T07:56:10Z)
MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文参考訳（メタデータ） (2026-01-16T02:32:07Z)
SafeMed-R1: Adversarial Reinforcement Learning for Generalizable and Robust Medical Reasoning in Vision-Language Models [0.0]
ハイブリット・ディフェンス・フレームワークであるSafeMed-R1を導入する。明示的なチェーン・オブ・シークレット推論で訓練されたモデルは、命令のみの変種と比較して、対角的堅牢性に優れることを示した。
論文参考訳（メタデータ） (2025-12-22T12:07:33Z)
MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文参考訳（メタデータ） (2025-10-24T02:11:05Z)
MedFact-R1: Towards Factual Medical Reasoning via Pseudo-Label Augmentation [25.186622292311228]
MEDFACT-R1は、外部知識基盤と強化学習を統合した2段階のフレームワークである。従来の最先端手法に比べて22.5%の精度で絶対的な改善が達成されている。
論文参考訳（メタデータ） (2025-09-18T16:59:59Z)
Med-R$^3$: Enhancing Medical Retrieval-Augmented Reasoning of LLMs via Progressive Reinforcement Learning [31.58210903685538]
本稿では、**Med-R$3$*, a*Med*ical **R**etrieval-augmented **R**easoning framework driven by Progress **R**einforcement learningを紹介する。本稿ではまず,医学的問題に対する論理的推論を行うモデルの開発を行う。次に,知識コーパスの特性と外部情報の利用性に適合するように,検索機能を適応的に最適化する。
論文参考訳（メタデータ） (2025-07-31T13:31:01Z)
CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making [42.28216499263317]
Med-Zero-17Kは、純粋なRLベースのトレーニングのためのキュレートされたデータセットであり、30以上の医療画像モダリティと24の臨床的タスクを含んでいる。本稿では,Med-VLM のための大規模 RL フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-15T13:42:46Z)
Improving Medical Reasoning with Curriculum-Aware Reinforcement Learning [2.262453679768892]
医療用VQAに適した,最初のマルチモーダル強化学習フレームワークである textbfMedCCO を紹介する。 MedCCOは、さまざまな医療用VQAタスクに基づいて微調整され、ドメイン基底推論機能を確立する。 MedCCOを8つの挑戦的な医療用VQAベンチマークで検証し、クローズドな設定とオープンな設定の両方にまたがる。
論文参考訳（メタデータ） (2025-05-25T16:20:55Z)
GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning [28.911445780180077]
本稿では,強化学習(RL)により強化されたマルチモーダル医療推論モデルGMAI-VL-R1について述べる。本稿では, モデル一般化をさらに促進する推論データ合成法を開発し, 回帰サンプリングによるステップバイステップの推論データを生成する。 RL訓練後,GMAI-VL-R1は画像診断や視覚的質問応答などのタスクに優れていた。
論文参考訳（メタデータ） (2025-04-02T16:43:16Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning [29.84956540178252]
我々は、透明性と信頼性を高めるために、自然言語推論を明示的に生成する医療用VLMであるMedVLM-R1を紹介する。 MedVLM-R1の精度は、MRI、CT、X線ベンチマークで55.11%から78.22%に向上し、100万以上のサンプルでトレーニングされたより大きなモデルを上回っている。
論文参考訳（メタデータ） (2025-02-26T23:57:34Z)
Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding [17.783231335173486]
解剖学的CT画像解釈のための細粒度視覚言語モデル(fVLM)を提案する。しかし、微粒なアライメントは、かなり偽陰性な課題に直面している。今回,69,086例のCT画像と報告データをもとに,これまでで最大のCTデータセットを収集した。
論文参考訳（メタデータ） (2025-01-24T14:50:48Z)
MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。生体画像検査における解釈可能性と精度を高めるように設計されている。 4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文参考訳（メタデータ） (2024-12-18T11:14:02Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文参考訳（メタデータ） (2024-10-16T23:03:27Z)
LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models [38.78576472811659]
大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の作成を支援する可能性がある。我々は、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
論文参考訳（メタデータ） (2024-10-02T14:57:58Z)
MiniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis [28.421857904824627]
MiniGPT-Medは、大規模言語モデルから派生したヴィジュアル言語モデルであり、医学的応用に適したものである。医療報告生成、視覚的質問応答(VQA)、医療画像内の疾患識別などのタスクを実行することができる。医療報告生成の最先端性能は,従来の最良モデルよりも19%高い精度で達成される。
論文参考訳（メタデータ） (2024-07-04T18:21:10Z)
Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文参考訳（メタデータ） (2024-04-29T04:11:28Z)
OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文参考訳（メタデータ） (2024-02-14T13:51:56Z)
Robust and Interpretable Medical Image Classifiers via Concept Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文参考訳（メタデータ） (2023-10-04T21:57:09Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Customizing General-Purpose Foundation Models for Medical Report Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文参考訳（メタデータ） (2023-06-09T03:02:36Z)
Robust and Efficient Medical Imaging with Self-Supervision [80.62711706785834]
医用画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略であるREMEDISを提案する。様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。
論文参考訳（メタデータ） (2022-05-19T17:34:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。