論文の概要: RARL: Improving Medical VLM Reasoning and Generalization with Reinforcement Learning and LoRA under Data and Hardware Constraints
- arxiv url: http://arxiv.org/abs/2506.06600v2
- Date: Sat, 14 Jun 2025 19:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 13:01:17.407727
- Title: RARL: Improving Medical VLM Reasoning and Generalization with Reinforcement Learning and LoRA under Data and Hardware Constraints
- Title(参考訳): RARL:データ・ハードウェア制約下での強化学習とLORAによる医用VLM推論と一般化
- Authors: Tan-Hanh Pham, Chris Ngo,
- Abstract要約: Reasoning-Aware Reinforcement Learning frameworkは、医療ビジョン言語モデルの推論能力を高める。
低ランク適応とカスタム報酬関数を用いた軽量ベースモデルQwen2-VL-2B-Instructを微調整する。
RARLは医用画像解析および臨床推論におけるVLM性能を著しく改善することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing integration of vision-language models (VLMs) in medical applications offers promising support for diagnostic reasoning. However, current medical VLMs often face limitations in generalization, transparency, and computational efficiency-barriers that hinder deployment in real-world, resource-constrained settings. To address these challenges, we propose a Reasoning-Aware Reinforcement Learning framework, \textbf{RARL}, that enhances the reasoning capabilities of medical VLMs while remaining efficient and adaptable to low-resource environments. Our approach fine-tunes a lightweight base model, Qwen2-VL-2B-Instruct, using Low-Rank Adaptation and custom reward functions that jointly consider diagnostic accuracy and reasoning quality. Training is performed on a single NVIDIA A100-PCIE-40GB GPU, demonstrating the feasibility of deploying such models in constrained environments. We evaluate the model using an LLM-as-judge framework that scores both correctness and explanation quality. Experimental results show that RARL significantly improves VLM performance in medical image analysis and clinical reasoning, outperforming supervised fine-tuning on reasoning-focused tasks by approximately 7.78%, while requiring fewer computational resources. Additionally, we demonstrate the generalization capabilities of our approach on unseen datasets, achieving around 27% improved performance compared to supervised fine-tuning and about 4% over traditional RL fine-tuning. Our experiments also illustrate that diversity prompting during training and reasoning prompting during inference are crucial for enhancing VLM performance. Our findings highlight the potential of reasoning-guided learning and reasoning prompting to steer medical VLMs toward more transparent, accurate, and resource-efficient clinical decision-making. Code and data are publicly available.
- Abstract(参考訳): 医療応用における視覚言語モデル(VLM)の統合は、診断推論の有望なサポートを提供する。
しかしながら、現在の医療用VLMは、現実のリソース制約のある環境での展開を妨げる一般化、透明性、計算効率の障壁の制限に直面していることが多い。
これらの課題に対処するために、医療用VLMの推論能力を高めつつ、低リソース環境に適応可能なReasoning-Aware Reinforcement Learning framework, \textbf{RARL}を提案する。
提案手法は,低ランク適応を用いた軽量ベースモデルQwen2-VL-2B-インストラクションと,診断精度と推論品質を両立させるカスタム報酬関数を用いて微調整する。
トレーニングは1つのNVIDIA A100-PCIE-40GB GPU上で行われ、制約のある環境でそのようなモデルをデプロイする可能性を示している。
LLM-as-judge フレームワークを用いたモデルの評価を行った。
実験の結果,RARLは医用画像解析および臨床推論におけるVLM性能を著しく向上させ,推論に焦点を絞ったタスクの微調整を約7.78%向上させ,計算資源の削減を図った。
さらに,従来のRLファインチューニングよりも約4%向上し,教師付きファインチューニングよりも約27%向上した。
また,本実験により,VLMの性能向上には,トレーニング中の多様性の促進と推論時の推論の促進が不可欠であることが示唆された。
本研究は, より透明性, 正確, 資源効率の高い臨床意思決定に向けて医療用VLMを推し進めるために, 推論誘導学習と推論の可能性を強調した。
コードとデータは公開されている。
関連論文リスト
- Training LLMs for EHR-Based Reasoning Tasks via Reinforcement Learning [28.019558492081437]
検証可能な報酬付き強化学習(RLVR)を用いて,大規模言語モデル(LLM)を複雑な臨床推論タスクに適用するための実践的レシピを提案する。
医療計算(MEDCALC)、患者と臨床の整合性(TREC CLINICAL TRIALS)、疾患診断(EHRSHOT)など,様々な臨床応用における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-05-30T01:13:22Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning [29.84956540178252]
推論は、医用画像解析の進歩における重要なフロンティアである。
我々は、自然言語推論を明示的に生成する医療用VLMであるMedVLM-R1を紹介する。
MedVLM-R1の精度は、MRI、CT、X線ベンチマークで55.11%から78.22%に向上している。
論文 参考訳(メタデータ) (2025-02-26T23:57:34Z) - VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - LEAF: Learning and Evaluation Augmented by Fact-Checking to Improve Factualness in Large Language Models [11.453585039783901]
LEAF: Fact-Checkingによって強化された学習と評価は、大規模言語モデル(LLM)の現実的信頼性を高めるために設計された新しいアプローチである。
最初の戦略であるFact-Check-Then-RAGは、ファクトチェック結果を取り入れて、モデルパラメータを更新せずに検索プロセスをガイドすることによって、検索精度を向上させる。
第2の戦略であるLearning from Fact-Checks via Self-Trainingは、ファクトチェックされた応答の監督された微調整(SFT)や、ファクトチェックをランキングメカニズムとして適用するSimple Preference Optimization(SimPO)である。
論文 参考訳(メタデータ) (2024-10-31T00:18:05Z) - Knowledge-grounded Adaptation Strategy for Vision-language Models: Building Unique Case-set for Screening Mammograms for Residents Training [5.819704618007536]
自然画像とテキストペアに事前訓練された視覚言語モデル(VLM)は、医学的文脈に適用した場合、大きな障壁となる。
本稿では, 選択的サンプリング法と強陰性マイニング法を用いて, VLMを医療領域に適応させるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T04:04:36Z) - Natural Language Programming in Medicine: Administering Evidence Based Clinical Workflows with Autonomous Agents Powered by Generative Large Language Models [29.05425041393475]
ジェネレーティブ・大型言語モデル(LLM)は医療において大きな可能性を秘めている。
本研究は, シミュレーション3次医療センターにおいて, 自律型エージェントとして機能するLSMの可能性を評価した。
論文 参考訳(メタデータ) (2024-01-05T15:09:57Z) - Evaluating the Fairness of the MIMIC-IV Dataset and a Baseline
Algorithm: Application to the ICU Length of Stay Prediction [65.268245109828]
本稿では、MIMIC-IVデータセットを用いて、滞在時間を予測するXGBoostバイナリ分類モデルにおける公平性とバイアスについて検討する。
この研究は、人口統計属性にわたるデータセットのクラス不均衡を明らかにし、データ前処理と特徴抽出を採用する。
この論文は、偏見を緩和するための公正な機械学習技術と、医療専門家とデータサイエンティストの協力的な努力の必要性について結論付けている。
論文 参考訳(メタデータ) (2023-12-31T16:01:48Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。