論文の概要: Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation
- arxiv url: http://arxiv.org/abs/2602.10619v1
- Date: Wed, 11 Feb 2026 08:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.564499
- Title: Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation
- Title(参考訳): 知覚と推論による医用視覚強化細調整の改善
- Authors: Guangjing Yang, ZhangYuan Yu, Ziyuan Qin, Xinyuan Song, Huahui Yi, Qingbo Kang, Jun Gao, Yiyue Li, Chenlin Du, Qicheng Lao,
- Abstract要約: 医用領域に適した視覚強化微調整フレームワークであるVRFT-Augを提案する。
VRFT-Augは、知覚と推論の両方を強化するために設計された一連のトレーニング戦略を導入した。
我々のアプローチは、標準教師付き微調整とRFTベースラインの両方を一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 10.228152373562397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent advances in Reinforcement Fine-Tuning (RFT) have shown that rule-based reward schemes can enable effective post-training for large language models, their extension to cross-modal, vision-centric domains remains largely underexplored. This limitation is especially pronounced in the medical imaging domain, where effective performance requires both robust visual perception and structured reasoning. In this work, we address this gap by proposing VRFT-Aug, a visual reinforcement fine-tuning framework tailored for the medical domain. VRFT-Aug introduces a series of training strategies designed to augment both perception and reasoning, including prior knowledge injection, perception-driven policy refinement, medically informed reward shaping, and behavioral imitation. Together, these methods aim to stabilize and improve the RFT process. Through extensive experiments across multiple medical datasets, we show that our approaches consistently outperform both standard supervised fine-tuning and RFT baselines. Moreover, we provide empirically grounded insights and practical training heuristics that can be generalized to other medical image tasks. We hope this work contributes actionable guidance and fresh inspiration for the ongoing effort to develop reliable, reasoning-capable models for high-stakes medical applications.
- Abstract(参考訳): Reinforcement Fine-Tuning (RFT) の最近の進歩は、ルールベースの報酬スキームが大きな言語モデルに対して効果的な後訓練を可能にすることを示したが、そのクロスモーダルな視覚中心の領域への拡張はいまだに未熟である。
この制限は、医用画像領域において特に顕著であり、効果的な性能には、堅牢な視覚知覚と構造化推論の両方が必要である。
本研究では,VRFT-Augを医用領域に合わせた視覚的強化微調整フレームワークとして提案することで,このギャップに対処する。
VRFT-Augは、事前知識注入、知覚駆動型ポリシー改善、医学的インフォームド報酬形成、行動模倣など、知覚と推論の両方を強化するために設計された一連のトレーニング戦略を導入している。
これらの手法は、RFTプロセスの安定化と改善を目的としている。
複数の医療データセットにわたる広範な実験を通して、我々のアプローチは標準教師付き微調整とRFTベースラインの両方を一貫して上回っていることを示す。
さらに,他の医用画像タスクに一般化可能な経験的基礎知識と実践的トレーニングヒューリスティックスを提供する。
本研究は,高用量医療応用のための信頼性,推論可能なモデルの開発に,実用的なガイダンスと新たなインスピレーションを与えてくれることを願っている。
関連論文リスト
- Benchmarking Direct Preference Optimization for Medical Large Vision-Language Models [19.558012394552954]
医学領域内における多様なDPO変異の包括的検討を初めて行った。
現在のDPOアプローチでは、教師付き微調整よりも一貫性のない利得が得られることが多い。
彼らはしばしば、根本的な視覚的誤解釈の誤りを解決するのに失敗する。
論文 参考訳(メタデータ) (2026-01-25T17:36:53Z) - MedEyes: Learning Dynamic Visual Focus for Medical Progressive Diagnosis [17.59077756990045]
MedEyesは、臨床医スタイルの診断推論を動的にモデル化する強化学習フレームワークである。
二重モード探索法を用いて診断過程をエミュレートし, 組織的異常局所化をスキャンし, 詳細な地域分析を行う。
実験の結果、MedEyesは複数の医療用VQAベンチマークで+8.5%の性能向上を達成した。
論文 参考訳(メタデータ) (2025-11-27T01:47:43Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Prompt Mechanisms in Medical Imaging: A Comprehensive Survey [18.072753363565322]
深層学習は医療画像に変革をもたらす。
しかし、その臨床導入は、データの不足、分散シフト、堅牢なタスクの一般化の必要性といった課題によって、しばしば妨げられている。
深層学習モデルを導くための重要な戦略として,プロンプトベースの方法論が登場している。
論文 参考訳(メタデータ) (2025-06-28T03:06:25Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Efficient Medical VIE via Reinforcement Learning [10.713109515157475]
ビジュアル情報抽出(VIE)は、構造化されていない文書イメージを、レポート分析やオンラインコンサルティングといった医療応用に不可欠な構造化フォーマットのような構造化フォーマットに変換する。
従来の手法はOCRと言語モデルに依存し、エンドツーエンドのマルチモーダルモデルは直接生成を提供する。
我々は、100の注釈付きサンプルを使用してこれらの課題に対処するために、Reinforcement Learning with Verifiable Rewards(RLVR)フレームワークをベースとしています。
論文 参考訳(メタデータ) (2025-06-16T11:10:25Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - GaNDLF: A Generally Nuanced Deep Learning Framework for Scalable
End-to-End Clinical Workflows in Medical Imaging [76.38169390121057]
コミュニティ主導型汎用ディープラーニングフレームワークGaNDLF(Generally Nuanced Deep Learning Framework)について紹介する。
GaNDLFは、DL開発、トレーニング、推論のメカニズムをより安定させ、再現可能で、解釈可能で、スケーラブルにする。
放射線画像と病理画像の両方をGaNDLFで解析し,k-foldクロスバリデーションをサポートした。
論文 参考訳(メタデータ) (2021-02-26T02:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。