論文の概要: MSRL: Scaling Generative Multimodal Reward Modeling via Multi-Stage Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.25108v1
- Date: Thu, 26 Mar 2026 07:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.153724
- Title: MSRL: Scaling Generative Multimodal Reward Modeling via Multi-Stage Reinforcement Learning
- Title(参考訳): MSRL:多段階強化学習による生成的マルチモーダルリワードモデリングのスケーリング
- Authors: Chenglong Wang, Yifu Huo, Yang Gan, Qiaozhi He, Qi Meng, Bei Li, Yan Wang, Junfu Liu, Tianhua Zhou, Jingbo Zhu, Tong Xiao,
- Abstract要約: マルチステージ強化学習(MSRL)は、限られたマルチモーダルデータを持つマルチモーダル報酬モデルに対してスケーラブルなRLを実現することができる。
MSRLは、従来のRLVRベースのトレーニングパラダイムを、一般化可能な報酬推論能力を初めて学習することで置き換える。
大規模な実験により、MSRLはRLVRベースの生成型MRMのトレーニングを効果的にスケールすることが示された。
- 参考スコア(独自算出の注目度): 59.03162187361455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal reward modeling have been largely driven by a paradigm shift from discriminative to generative approaches. Building on this progress, recent studies have further employed reinforcement learning from verifiable rewards (RLVR) to enhance multimodal reward models (MRMs). Despite their success, RLVR-based training typically relies on labeled multimodal preference data, which are costly and labor-intensive to obtain, making it difficult to scale MRM training. To overcome this limitation, we propose a Multi-Stage Reinforcement Learning (MSRL) approach, which can achieve scalable RL for MRMs with limited multimodal data. MSRL replaces the conventional RLVR-based training paradigm by first learning a generalizable reward reasoning capability from large-scale textual preference data, and then progressively transferring this capability to multimodal tasks through caption-based and fully multimodal reinforcement-learning stages. Furthermore, we introduce a cross-modal knowledge distillation approach to improve preference generalization within MSRL. Extensive experiments demonstrate that MSRL effectively scales the RLVR-based training of generative MRMs and substantially improves their performance across both visual understanding and visual generation tasks (e.g., from 66.6% to 75.9% on VL-RewardBench and from 70.2% to 75.7% on GenAI-Bench), without requiring additional multimodal preference annotations. Our code is available at: https://github.com/wangclnlp/MSRL.
- Abstract(参考訳): マルチモーダル報酬モデリングの最近の進歩は、差別的アプローチから生成的アプローチへのパラダイムシフトによって大きく推進されている。
近年の研究では、Multimodal reward model(MRM)を強化するために、検証可能な報酬(RLVR)からの強化学習が採用されている。
その成功にもかかわらず、RLVRベースのトレーニングは通常、ラベル付きマルチモーダルな嗜好データに頼っている。
この制限を克服するため、マルチモーダルデータに制限のあるMRMに対してスケーラブルなRLを実現するマルチステージ強化学習(MSRL)手法を提案する。
MSRLは、大規模なテキスト嗜好データから一般化可能な報酬推論能力を学習し、その後、キャプションベースおよび完全マルチモーダル強化学習段階を通じて、これをマルチモーダルタスクに段階的に転送することで、従来のRLVRベースのトレーニングパラダイムを置き換える。
さらに,MSRLにおける嗜好の一般化を改善するために,クロスモーダルな知識蒸留手法を導入する。
MSRLは、生成的MRMのRLVRベースのトレーニングを効果的にスケールし、視覚的理解タスクと視覚的生成タスク(例えば、VL-RewardBenchでは66.6%から75.9%、GenAI-Benchでは70.2%から75.7%)でパフォーマンスを大幅に改善する。
私たちのコードは、https://github.com/wangclnlp/MSRLで利用可能です。
関連論文リスト
- OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe [69.90298686714036]
細調整と強化学習にまたがるマルチモーダル推論のための完全透明な2段階レシピであるOpenMMReasonerを紹介する。
提案手法は,9つのマルチモーダル推論ベンチマークにおいて,Qwen2.5-VL-7B-インストラクタベースラインよりも11.6%向上した。
論文 参考訳(メタデータ) (2025-11-20T13:11:45Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - MEML-GRPO: Heterogeneous Multi-Expert Mutual Learning for RLVR Advancement [37.880962254812175]
Multi-Expert Mutual Learning GRPOは、多様な専門家のプロンプトを利用する革新的なフレームワークである。
MEML-GRPOはQwenでは平均4.89%、Llamaでは11.33%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2025-08-13T09:58:10Z) - MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization [74.04867639197445]
MiroMind-M1 は Qwen-2.5 ベースのベンチマーク上に構築された完全なオープンソース RLM のセットである。
我々のモデルは2つの段階で訓練されている: SFT on a carefully curated corpus of 719K math-reasoning problem with confirmed CoT trajectories, then RLVR on 62K challenge and verible problem。
論文 参考訳(メタデータ) (2025-07-19T16:21:23Z) - Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning [28.92744927199283]
ReVisual-R1は、MathVerse、MathVision、WeMath、LogicVista、DynaMath、AIME2024、AIME2025といった挑戦的なベンチマークにおいて、オープンソースの7B MLLMの間で新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:51:08Z) - R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning [22.167272219418845]
マルチモーダル・リワードモデル(MRM)は、マルチモーダル大言語モデル(MLLM)の性能向上に重要な役割を果たす。
本稿では,既存のRL手法のトレーニング損失,利点推定戦略,報酬設計を改良したStableReinforceアルゴリズムを提案する。
我々の報酬モデルであるR1-Rewardは、このデータセット上でStableReinforceアルゴリズムを使用してトレーニングされ、マルチモーダル報酬モデリングベンチマークのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2025-05-05T17:59:50Z) - OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。
具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。
GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文 参考訳(メタデータ) (2025-03-20T12:22:18Z) - MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。
前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。
後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-10T14:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。