論文の概要: MedVLThinker: Simple Baselines for Multimodal Medical Reasoning
- arxiv url: http://arxiv.org/abs/2508.02669v2
- Date: Thu, 14 Aug 2025 17:47:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.541031
- Title: MedVLThinker: Simple Baselines for Multimodal Medical Reasoning
- Title(参考訳): MedVLThinker:マルチモーダル医療推論のためのシンプルなベースライン
- Authors: Xiaoke Huang, Juncheng Wu, Hui Liu, Xianfeng Tang, Yuyin Zhou,
- Abstract要約: MedVLThinkerは、推論中心の医療用LMMを構築するための、シンプルだが強力なベースラインのスイートである。
完全オープンなレシピは,(1) テキストのみとイメージテキストの両方の医療データに対する体系的なデータキュレーション,(2) 推論の難易度に応じてフィルタリング,(2) 学習パラダイム: 蒸留された推論トレースの超微調整(SFT) および最終回答の正しさに基づく強化学習(RLVR) から構成される。
- 参考スコア(独自算出の注目度): 21.849783391186754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have introduced a new paradigm in AI by enabling models to ``think before responding" via chain-of-thought reasoning. However, the absence of open and reproducible recipes for building reasoning-centric medical LMMs hinders community-wide research, analysis, and comparison. In this paper, we present MedVLThinker, a suite of simple yet strong baselines. Our fully open recipe consists of: (1) systematic data curation for both text-only and image-text medical data, filtered according to varying levels of reasoning difficulty, and (2) two training paradigms: Supervised Fine-Tuning (SFT) on distilled reasoning traces and Reinforcement Learning with Verifiable Rewards (RLVR) based on final answer correctness. Across extensive experiments on the Qwen2.5-VL model family (3B, 7B) and six medical QA benchmarks, we find that RLVR consistently and significantly outperforms SFT. Additionally, under the RLVR framework, a key, counter-intuitive finding is that training on our curated text-only reasoning data provides a more substantial performance boost than training on multimodal image-text data. Our best open 7B model, trained using the RLVR recipe on text-only data, establishes a new state-of-the-art on existing public VQA benchmarks, surpassing all previous open-source medical LMMs. Furthermore, scaling our model to 32B achieves performance on par with the proprietary GPT-4o. We release all curated data, models, and code to provide the community with a strong, open foundation for future research in multimodal medical reasoning.
- Abstract(参考訳): 大規模推論モデル(LRM)は、チェーンオブ思考推論を通じてモデルが"応答する前に考える"ことを可能にすることによって、AIの新しいパラダイムを導入した。
しかし、推論中心の医療用LMMを構築するためのオープンで再現可能なレシピがないことは、コミュニティ全体の研究、分析、比較を妨げる。
本稿では,単純だが強力なベースラインの集合であるMedVLThinkerを紹介する。
完全オープンなレシピは,(1) テキストのみとイメージテキストの両方の医療データに対する体系的なデータキュレーション,(2) 推理困難度に応じてフィルタリング,(2) 蒸留された推論トレースの監視(SFT)と最終回答の正しさに基づく強化学習(RLVR)の2つの訓練パラダイムから構成される。
Qwen2.5-VLモデルファミリ(3B,7B)と6つの医学QAベンチマークに関する広範な実験の結果、RLVRは一貫してSFTよりも大幅に優れていた。
さらに、RLVRフレームワークの下では、キュレートされたテキストのみの推論データに対するトレーニングは、マルチモーダルな画像テキストデータのトレーニングよりも大幅にパフォーマンスが向上する。
我々の最高のオープン7Bモデルは、テキストのみのデータでRLVRレシピを使って訓練され、既存のVQAベンチマークで新しい最先端の技術を確立し、これまでのすべてのオープンソース医療用LMMを上回ります。
さらに、我々のモデルを32Bにスケーリングすると、プロプライエタリなGPT-4oと同等のパフォーマンスが得られる。
我々は、今後のマルチモーダル医療推論研究のための強力なオープンな基盤をコミュニティに提供するために、すべてのキュレートされたデータ、モデル、コードをリリースします。
関連論文リスト
- MIRA: A Novel Framework for Fusing Modalities in Medical RAG [6.044279952668295]
MLLMにおける実測精度の最適化を目的としたMIRA(Multimodal Intelligent Retrieval and Augmentation)フレームワークを提案する。
MIRAは,(1)検索コンテキスト数を動的に調整して事実リスクを管理する校正再考・再配置モジュール,(2)画像埋め込みと医用知識ベースを統合した医用RAGフレームワークと,効率的なマルチモーダル推論を行うクエリ・リライトモジュールの2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2025-07-10T16:33:50Z) - Efficient Medical VIE via Reinforcement Learning [10.713109515157475]
ビジュアル情報抽出(VIE)は、構造化されていない文書イメージを、レポート分析やオンラインコンサルティングといった医療応用に不可欠な構造化フォーマットのような構造化フォーマットに変換する。
従来の手法はOCRと言語モデルに依存し、エンドツーエンドのマルチモーダルモデルは直接生成を提供する。
我々は、100の注釈付きサンプルを使用してこれらの課題に対処するために、Reinforcement Learning with Verifiable Rewards(RLVR)フレームワークをベースとしています。
論文 参考訳(メタデータ) (2025-06-16T11:10:25Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL [26.138061467729212]
第1回AlphaMedは,強化学習(RL)によって推論能力が純粋に現れることを示す最初の医学的LLMである。
AlphaMedは、従来のSFT+RLパイプラインでトレーニングされたモデルよりも優れた6つの医学的QAベンチマークで最先端の結果を達成する。
以上の結果から,データセットの有意性は推論性能の重要な要因であり,複数選択QAデータに対する最小限のRLは,CoTの監督なしに推論を誘導する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2025-05-23T14:27:37Z) - GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning [28.911445780180077]
本稿では,強化学習(RL)により強化されたマルチモーダル医療推論モデルGMAI-VL-R1について述べる。
本稿では, モデル一般化をさらに促進する推論データ合成法を開発し, 回帰サンプリングによるステップバイステップの推論データを生成する。
RL訓練後,GMAI-VL-R1は画像診断や視覚的質問応答などのタスクに優れていた。
論文 参考訳(メタデータ) (2025-04-02T16:43:16Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Med-RLVR: Emerging Medical Reasoning from a 3B base model via reinforcement Learning [19.064630697040055]
検証可能な報酬 (RLVR) からの強化学習は, 明確な推論監督なしに, ベース言語モデルから自己進化推論を引き出す能力に注目が集まっている。
医療領域におけるRLVRの初期研究として,MCQA(Med-RLVR)データを検証ラベルとして活用したMed-RLVRを紹介した。
以上の結果から,RLVRは数学やコーディングに有効であるだけでなく,医学的質問応答にも有効であることが示された。
論文 参考訳(メタデータ) (2025-02-27T00:54:38Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Aligning Large Multimodal Models with Factually Augmented RLHF [176.54751941088819]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「ハロシン化」をもたらす。
テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。
本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。
提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文 参考訳(メタデータ) (2023-09-25T20:59:33Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。