論文の概要: Toward Effective Reinforcement Learning Fine-Tuning for Medical VQA in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.13973v1
- Date: Tue, 20 May 2025 06:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.779278
- Title: Toward Effective Reinforcement Learning Fine-Tuning for Medical VQA in Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルにおける医用VQAのための効果的な強化学習ファインタニングに向けて
- Authors: Wenhui Zhu, Xuanzhao Dong, Xin Li, Peijie Qiu, Xiwen Chen, Abolfazl Razi, Aris Sotiras, Yi Su, Yalin Wang,
- Abstract要約: 強化学習(RL)に基づく多モーダル大規模言語モデル(MLLM)の軌道変更
医用視覚質問応答(VQA)におけるRLに基づくチューニングの有効性に影響を与える4つの臨界次元について検討する。
我々は、これらの因子を医療MLLMで分析するための広範囲な実験を行い、モデルがどのようにドメイン特異的に微調整されているかについての新しい知見を提供する。
- 参考スコア(独自算出の注目度): 15.870555147672023
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, reinforcement learning (RL)-based tuning has shifted the trajectory of Multimodal Large Language Models (MLLMs), particularly following the introduction of Group Relative Policy Optimization (GRPO). However, directly applying it to medical tasks remains challenging for achieving clinically grounded model behavior. Motivated by the need to align model response with clinical expectations, we investigate four critical dimensions that affect the effectiveness of RL-based tuning in medical visual question answering (VQA): base model initialization strategy, the role of medical semantic alignment, the impact of length-based rewards on long-chain reasoning, and the influence of bias. We conduct extensive experiments to analyze these factors for medical MLLMs, providing new insights into how models are domain-specifically fine-tuned. Additionally, our results also demonstrate that GRPO-based RL tuning consistently outperforms standard supervised fine-tuning (SFT) in both accuracy and reasoning quality.
- Abstract(参考訳): 近年、強化学習(RL)に基づくチューニングは、特にグループ相対政策最適化(GRPO)の導入に伴って、MLLM(Multimodal Large Language Models)の軌道をシフトしている。
しかし, 臨床に根ざしたモデル行動を達成するためには, 直接医療業務に応用することは依然として困難である。
医療視覚質問応答(VQA)におけるRLに基づくチューニングの有効性に影響を及ぼす4つの重要な側面について検討し,基礎モデルの初期化戦略,医療意味的アライメントの役割,長鎖推論に対する長鎖報酬の影響,バイアスの影響について検討した。
我々は、これらの因子を医療MLLMで分析するための広範囲な実験を行い、モデルがどのようにドメイン特異的に微調整されているかについての新しい知見を提供する。
さらに、GRPOに基づくRLチューニングは、精度と推論品質の両方で標準教師付き微調整(SFT)よりも一貫して優れていることを示す。
関連論文リスト
- Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文 参考訳(メタデータ) (2025-02-25T07:44:22Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - Stronger Baseline Models -- A Key Requirement for Aligning Machine Learning Research with Clinical Utility [0.0]
機械学習モデルを高精細な臨床環境にデプロイしようとするとき、よく知られた障壁が存在する。
評価において,より強力なベースラインモデルを含むと,下流効果が重要となることを実証的に示す。
本稿では,MLモデルを臨床現場でより効果的に研究・展開するためのベストプラクティスを提案する。
論文 参考訳(メタデータ) (2024-09-18T16:38:37Z) - ClinicRealm: Re-evaluating Large Language Models with Conventional Machine Learning for Non-Generative Clinical Prediction Tasks [22.539696532725607]
LLM(Large Language Models)は、医学においてますます普及している。
しかし, 臨床診断における有用性は未評価のままである。
本研究は,GPTをベースとしたLCM9,BERTをベースとしたモデル5,非構造化臨床ノートと構造化電子健康記録の従来手法7をベンチマークすることで,この問題に対処する。
論文 参考訳(メタデータ) (2024-07-26T06:09:10Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Integrating Physician Diagnostic Logic into Large Language Models: Preference Learning from Process Feedback [19.564416963801268]
プロセスフィードバックから選好学習というアプローチを提案する。
PLPFは医師の診断ロジックをLSMに統合する。
PLPFは医療会話におけるベースラインモデルの診断精度を17.6%向上させる。
論文 参考訳(メタデータ) (2024-01-11T06:42:45Z) - Natural Language Programming in Medicine: Administering Evidence Based Clinical Workflows with Autonomous Agents Powered by Generative Large Language Models [29.05425041393475]
ジェネレーティブ・大型言語モデル(LLM)は医療において大きな可能性を秘めている。
本研究は, シミュレーション3次医療センターにおいて, 自律型エージェントとして機能するLSMの可能性を評価した。
論文 参考訳(メタデータ) (2024-01-05T15:09:57Z) - Meta Transfer of Self-Supervised Knowledge: Foundation Model in Action
for Post-Traumatic Epilepsy Prediction [0.6291443816903801]
基礎モデルに新たなトレーニング戦略を導入する。
提案手法は,小規模臨床データセットのタスク性能を著しく向上することを示す。
さらに, 基礎モデルの一般化性の向上を実証した。
論文 参考訳(メタデータ) (2023-12-21T07:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。