論文の概要: MedGRPO: Multi-Task Reinforcement Learning for Heterogeneous Medical Video Understanding
- arxiv url: http://arxiv.org/abs/2512.06581v1
- Date: Sat, 06 Dec 2025 22:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.416815
- Title: MedGRPO: Multi-Task Reinforcement Learning for Heterogeneous Medical Video Understanding
- Title(参考訳): MedGRPO:異種医用ビデオ理解のためのマルチタスク強化学習
- Authors: Yuhao Su, Anwesa Choudhuri, Zhongpai Gao, Benjamin Planche, Van Nguyen Nguyen, Meng Zheng, Yuhan Shen, Arun Innanje, Terrence Chen, Ehsan Elhamifar, Ziyan Wu,
- Abstract要約: textbfMedVidBenchは、ビデオ、セグメント、フレームレベルのタスクにまたがる8つの医療ソースにわたる531,850のビデオインストラクションペアの大規模なベンチマークである。
MedVidBenchの教師付き微調整は顕著な利益をもたらすが、標準強化学習はデータセット間の不均衡な報酬スケールのために失敗する。
textbfMedGRPOは、2つの重要な革新を伴うバランスの取れたマルチデータセットトレーニングのための新しいRLフレームワークである。
- 参考スコア(独自算出の注目度): 47.843626983298726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models struggle with medical video understanding, where spatial precision, temporal reasoning, and clinical semantics are critical. To address this, we first introduce \textbf{MedVidBench}, a large-scale benchmark of 531,850 video-instruction pairs across 8 medical sources spanning video, segment, and frame-level tasks, curated through a rigorous quality assurance pipeline with expert-guided prompting and dual-model validation. While supervised fine-tuning on MedVidBench yields noticeable gains, standard Reinforcement Learning (RL) fails due to imbalanced reward scales across datasets, which destabilizes optimization and leads to training collapse. To overcome this, we introduce \textbf{MedGRPO}, a novel RL framework for balanced multi-dataset training with two key innovations: (1) \emph{cross-dataset reward normalization} that maps each dataset's median performance to a common reward value, ensuring fair optimization regardless of difficulty, and (2) a \emph{medical LLM judge} that evaluates caption quality on five clinical dimensions through comparative similarity scoring. Supervised fine-tuning Qwen2.5-VL-7B on MedVidBench substantially outperforms GPT-4.1 and Gemini-2.5-Flash across all tasks, demonstrating MedVidBench's efficacy, while our MedGRPO framework further improves upon the SFT baseline across grounding and captioning tasks. Our work establishes a foundational benchmark and robust training methodology for advancing vision-language models in medical domains. Our project website is available at https://yuhaosu.github.io/MedGRPO/.
- Abstract(参考訳): 大きな視覚言語モデルは、空間的精度、時間的推論、臨床的意味論が重要となる医療ビデオ理解に苦慮する。
まず、ビデオ、セグメント、フレームレベルのタスクにまたがる8つの医療ソースにまたがる531,850のビデオインストラクションペアの大規模なベンチマークである \textbf{MedVidBench} を紹介する。
MedVidBenchの教師付き微調整は顕著な利益をもたらすが、標準強化学習(RL)はデータセット間の不均衡な報酬スケールによって失敗し、最適化が不安定になり、トレーニングの崩壊につながる。
この問題を解決するために,(1) データセットの中央値を共通の報酬値にマッピングし,困難によらず公平な最適化を確保する,(2) 類似度スコアリングによって5つの臨床次元におけるキャプション品質を評価する,新しいマルチデータセットトレーニングフレームワークである \textbf{MedGRPO} を紹介した。
MedVidBench上の細調整Qwen2.5-VL-7Bは、すべてのタスクでGPT-4.1とGemini-2.5-Flashを著しく上回り、MedVidBenchの有効性を示す一方、我々のMedGRPOフレームワークは、グラウンドやキャプションタスクのSFTベースラインをさらに改善しています。
本研究は,医療領域における視覚言語モデルの発展のための基礎的ベンチマークと堅牢なトレーニング手法を確立する。
プロジェクトのWebサイトはhttps://yuhaosu.github.io/MedGRPO/.comで公開されている。
関連論文リスト
- MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - Kwai Keye-VL Technical Report [80.53170317017147]
ショートビデオ理解のためのマルチモーダル基盤モデルである textbfKwai Keye-VL を紹介する。
Keye-VLの開発は,ビデオに重点を置いた大規模で高品質なデータセットと,革新的なトレーニングレシピという,2つのコア柱に留まっている。
提案手法の有効性を検証するため,我々は,Kee-VLが公開ビデオベンチマークにおける最先端の成果を達成し,一般的な画像ベースタスクにおいて高い競争力を保っていることを示す,広範囲な評価を行う。
論文 参考訳(メタデータ) (2025-07-02T17:57:28Z) - Efficient Medical VIE via Reinforcement Learning [10.713109515157475]
ビジュアル情報抽出(VIE)は、構造化されていない文書イメージを、レポート分析やオンラインコンサルティングといった医療応用に不可欠な構造化フォーマットのような構造化フォーマットに変換する。
従来の手法はOCRと言語モデルに依存し、エンドツーエンドのマルチモーダルモデルは直接生成を提供する。
我々は、100の注釈付きサンプルを使用してこれらの課題に対処するために、Reinforcement Learning with Verifiable Rewards(RLVR)フレームワークをベースとしています。
論文 参考訳(メタデータ) (2025-06-16T11:10:25Z) - QoQ-Med: Building Multimodal Clinical Foundation Models with Domain-Aware GRPO Training [29.553607098450698]
QoQ-Medは、医療画像、時系列信号、およびテキストレポートを共同で原因付ける、最初のオープン・ジェネラリスト臨床基礎モデルである。
DRPOトレーニングは,すべての視覚領域において,マクロF1の診断性能を平均43%向上させることを示した。
QoQ-Medは集中的なセグメンテーションデータに基づいてトレーニングされており、オープンモデルよりもIoU 10倍高い、診断に関連する健全な領域をハイライトすることができる。
論文 参考訳(メタデータ) (2025-05-31T21:02:52Z) - MedBridge: Bridging Foundation Vision-Language Models to Medical Image Diagnosis [10.082738539201804]
最近の視覚言語基盤モデルは、自然画像分類の最先端結果を提供するが、ドメインシフトによる医用画像に干渉する。
MedBridgeは,医用画像の正確な診断のためにトレーニング済みのVLMを再利用した,軽量なマルチモーダル適応フレームワークである。
MedBridgeはマルチラベル胸部疾患の診断において最先端のVLM適応法と比較して6~15%改善した。
論文 参考訳(メタデータ) (2025-05-27T19:37:51Z) - ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models [95.47808515575382]
ExGra-Medは、医療AIのビジョン言語統合のための新しいフレームワークである。
画像、命令応答、拡張キャプションを潜在空間にアライメントし、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
プレトレーニングデータの10%しか使用せず、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。