論文の概要: When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains
- arxiv url: http://arxiv.org/abs/2603.01301v1
- Date: Sun, 01 Mar 2026 22:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.616756
- Title: When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains
- Title(参考訳): RLは医療用VLMにいつ役立つのか?
- Authors: Ahmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh, Natasha Sharan, Abhishek Moturu, Elham Dolatabadi, Babak Taati,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は, 医用ビジョンランゲージモデル(VLM)の訓練後, ますます普及している。
RLが医学的視覚的推論を改善するか、あるいは教師付き微調整(SFT)によって既に引き起こされている行動を改善するかは、まだ不明である。
本稿では、視覚、SFT、RLの3つの軸に沿ってこれらの効果を歪める制御された研究について述べる。
- 参考スコア(独自算出の注目度): 1.9256950761509062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is increasingly used to post-train medical Vision-Language Models (VLMs), yet it remains unclear whether RL improves medical visual reasoning or mainly sharpens behaviors already induced by supervised fine-tuning (SFT). We present a controlled study that disentangles these effects along three axes: vision, SFT, and RL. Using MedMNIST as a multi-modality testbed, we probe visual perception by benchmarking VLM vision towers against vision-only baselines, quantify reasoning support and sampling efficiency via Accuracy@1 versus Pass@K, and evaluate when RL closes the support gap and how gains transfer across modalities. We find that RL is most effective when the model already has non-trivial support (high Pass@K): it primarily sharpens the output distribution, improving Acc@1 and sampling efficiency, while SFT expands support and makes RL effective. Based on these findings, we propose a boundary-aware recipe and instantiate it by RL post-training an OctoMed-initialized model on a small, balanced subset of PMC multiple-choice VQA, achieving strong average performance across six medical VQA benchmarks.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, VLM(Vision-Language Models)の訓練後, 強化学習(Regforcement Learning, RL)に用いられている。
本稿では、視覚、SFT、RLの3つの軸に沿ってこれらの効果を歪める制御された研究について述べる。
MedMNISTを多モードテストベッドとして使用し、視覚のみのベースラインに対してVLMビジョンタワーをベンチマークすることで視覚知覚を探索し、Accuracy@1 vs Pass@Kを介して推論支援とサンプリング効率を定量化し、RLがサポートギャップを閉じ、モダリティ間の移動をどのように得られるかを評価する。
モデルが既に非自明なサポート(High Pass@K)を持つ場合,RLが最も有効であることが分かり,出力分布を向上し,Acc@1の改善とサンプリング効率が向上する一方,SFTはサポートを拡張してRLを効果的にする。
これらの知見に基づいて,PMC多重選択VQAの小さなバランスの取れたサブセット上でOctoMed初期化モデルをRL後トレーニングすることで,境界対応のレシピを提案し,それをインスタンス化する。
関連論文リスト
- CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Benchmark Success, Clinical Failure: When Reinforcement Learning Optimizes for Benchmarks, Not Patients [2.377303603725137]
我々は,2000個のSFTサンプル,1000個のRLサンプル,1つのA100 GPUを用いて,R1スタイルの方法論(SFTとGRPO)を用いて学習した視覚言語モデルであるChexReasonを紹介する。
GRPOは分配性能(CheXpertでは23%改善、マクロF1 = 0.346)を回復するが、データセット間の転送性(NIHでは19%低下)を低下させる。
我々は,SFTチェックポイントがNIHを最適化する前に一意に改善する一般化パラドックスを同定し,教師が指導する推論がより施設に依存しない特徴を捉えていることを示す。
論文 参考訳(メタデータ) (2025-12-28T21:57:42Z) - Reassessing the Role of Supervised Fine-Tuning: An Empirical Study in VLM Reasoning [30.751908700207185]
SFTはいくつかのシナリオで重要な役割を果たす。
2Kしか持たないSFTは20KでRLに匹敵するまたはより良い推論性能を達成している。
より高い報酬は、RLの推論精度と相関しない。
論文 参考訳(メタデータ) (2025-12-14T13:46:42Z) - More Than the Final Answer: Improving Visual Extraction and Logical Consistency in Vision-Language Models [74.10138874771852]
RLVR上で視覚知覚とテキスト推論を別々に改善する分離されたフレームワークであるPeRL-VL(Perception and Reasoning Learning for Vision-Language Models)を提案する。
知覚のために、PeRL-VLはVLMに基づく説明報酬を導入し、モデルの自己生成した画像記述を忠実さと満足度で評価する。
推論のために、PeRL-VLは論理に富んだチェーン・オブ・シントデータに関するテキストのみの推論SFTステージを追加し、コヒーレンスと論理的一貫性を視覚と独立に強化する。
論文 参考訳(メタデータ) (2025-12-13T23:06:18Z) - Enhancing Radiology Report Generation and Visual Grounding using Reinforcement Learning [15.894854593567963]
強化学習はタスク固有のフィードバックを取り入れることができ、その中間的推論(思考)と組み合わせることで、検証可能な数学やコーディングタスクに大きな利益が得られた。
我々はQwen3-VLに基づく視覚言語モデルを構築し,その後に基本思考能力を備えた冷間開始型SFTステージを構築した。
高いベース性能には強いSFTが不可欠であるが、RLは両方のタスクに追加の利得を与えるのに対し、明示的な思考は結果をさらに改善するわけではない。
論文 参考訳(メタデータ) (2025-12-11T14:36:14Z) - RL makes MLLMs see better than SFT [96.508432109136]
マルチモーダル言語モデル(MLLM)の視覚エンコーダの批判的かつ未探索な解析を行う。
その結果、MLLMの学習後戦略(SFTまたはRL)は、下流タスクにおいて異なる結果をもたらすだけでなく、MLLMの根底にある視覚的表現を根本的に再認識することを示した。
次に、私たちの知見をMLLMのための強力なビジョンエンコーダを構築するための簡単なレシピ、Preference-Instructed Vision OpTimization (PIVOT) に再構成する。
論文 参考訳(メタデータ) (2025-10-18T03:37:17Z) - RARL: Improving Medical VLM Reasoning and Generalization with Reinforcement Learning and LoRA under Data and Hardware Constraints [0.0]
Reasoning-Aware Reinforcement Learning frameworkは、医療ビジョン言語モデルの推論能力を高める。
低ランク適応とカスタム報酬関数を用いた軽量ベースモデルQwen2-VL-2B-Instructを微調整する。
RARLは医用画像解析および臨床推論におけるVLM性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2025-06-07T00:26:23Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。
SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。
我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:54:05Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning [26.835266813794316]
まず,MLLM画像分類のためのCRS-RLを提案する。
RFTにおける明示的な思考が常に必要かどうかを再考し、疑問を呈する。
No-Thinking-RL は単純な等式精度の報酬を導入することで、考えることなく RFT を探索する。
論文 参考訳(メタデータ) (2025-03-20T14:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。