論文の概要: Enhancing Radiology Report Generation and Visual Grounding using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.10691v1
- Date: Thu, 11 Dec 2025 14:36:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.416831
- Title: Enhancing Radiology Report Generation and Visual Grounding using Reinforcement Learning
- Title(参考訳): 強化学習を用いた放射線学レポート作成と視覚的グラウンド化の促進
- Authors: Benjamin Gundersen, Nicolas Deperrois, Samuel Ruiperez-Campillo, Thomas M. Sutter, Julia E. Vogt, Michael Moor, Farhad Nooralahzadeh, Michael Krauthammer,
- Abstract要約: 強化学習はタスク固有のフィードバックを取り入れることができ、その中間的推論(思考)と組み合わせることで、検証可能な数学やコーディングタスクに大きな利益が得られた。
我々はQwen3-VLに基づく視覚言語モデルを構築し,その後に基本思考能力を備えた冷間開始型SFTステージを構築した。
高いベース性能には強いSFTが不可欠であるが、RLは両方のタスクに追加の利得を与えるのに対し、明示的な思考は結果をさらに改善するわけではない。
- 参考スコア(独自算出の注目度): 15.894854593567963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models (VLMs) have improved Chest X-ray (CXR) interpretation in multiple aspects. However, many medical VLMs rely solely on supervised fine-tuning (SFT), which optimizes next-token prediction without evaluating answer quality. In contrast, reinforcement learning (RL) can incorporate task-specific feedback, and its combination with explicit intermediate reasoning ("thinking") has demonstrated substantial gains on verifiable math and coding tasks. To investigate the effects of RL and thinking in a CXR VLM, we perform large-scale SFT on CXR data to build an updated RadVLM based on Qwen3-VL, followed by a cold-start SFT stage that equips the model with basic thinking ability. We then apply Group Relative Policy Optimization (GRPO) with clinically grounded, task-specific rewards for report generation and visual grounding, and run matched RL experiments on both domain-specific and general-domain Qwen3-VL variants, with and without thinking. Across these settings, we find that while strong SFT remains crucial for high base performance, RL provides additional gains on both tasks, whereas explicit thinking does not appear to further improve results. Under a unified evaluation pipeline, the RL-optimized RadVLM models outperform their baseline counterparts and reach state-of-the-art performance on both report generation and grounding, highlighting clinically aligned RL as a powerful complement to SFT for medical VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、チェストX線(CXR)の解釈を複数の面で改善している。
しかし、多くの医療用VLMは教師付き微調整(SFT)のみに依存しており、答えの品質を評価せずに次点予測を最適化している。
対照的に、強化学習(RL)はタスク固有のフィードバックを組み込むことができ、その中間的推論(思考)と組み合わせることで、検証可能な数学やコーディングタスクに大きな利益が得られた。
CXR VLMにおけるRLと思考の効果を調べるため,Qwen3-VLに基づくRadVLMを更新し,その後に基本思考能力を備えた冷間開始型SFTステージでCXRデータに対して大規模SFTを行う。
次に,グループ相対政策最適化 (GRPO) を臨床応用し, 報告生成と視覚的グラウンド化のためのタスク固有報酬を付与し, ドメイン固有および一般ドメインQwen3-VL変異体において, 思考なしで, 一致したRL実験を行う。
これらの設定全体では、強いSFTはハイベースパフォーマンスには不可欠であるが、RLは両方のタスクに追加的なゲインを提供するのに対し、明示的な思考は結果をさらに改善しない。
統一された評価パイプラインの下では、RL最適化RadVLMモデルはベースラインモデルよりも優れており、レポート生成とグラウンドディングの両方において最先端のパフォーマンスに達し、臨床的に整列したRLが医療用VLMのSFTの強力な補体であることを強調している。
関連論文リスト
- Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale [70.23466957404891]
多様なスキルと複雑さのレベルにまたがる新しい推論データ生成フレームワークを,100万以上の高品質な合成視覚中心の質問で紹介する。
データ上のQwen2.5-VL-7Bの微調整は、すべての評価されたビジョン中心のベンチマークにおいて、すべてのオープンデータベースラインを上回ります。
論文 参考訳(メタデータ) (2025-11-07T20:50:54Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - RARL: Improving Medical VLM Reasoning and Generalization with Reinforcement Learning and LoRA under Data and Hardware Constraints [0.0]
Reasoning-Aware Reinforcement Learning frameworkは、医療ビジョン言語モデルの推論能力を高める。
低ランク適応とカスタム報酬関数を用いた軽量ベースモデルQwen2-VL-2B-Instructを微調整する。
RARLは医用画像解析および臨床推論におけるVLM性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2025-06-07T00:26:23Z) - Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme [36.34443944082215]
本研究は、視覚モデル(VLM)における強化学習(RL)のための透明でゼロスクラッチなフレームワークを導入する。
複数のモデルとデータセットにまたがって検証される、最小限の機能を備えた4ステップパイプラインを提供する。
さらに、トレーニング力学と反射行動を評価するために、標準化された評価手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T13:53:28Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。