論文の概要: Stable and Efficient Single-Rollout RL for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2512.18215v1
- Date: Sat, 20 Dec 2025 05:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.236724
- Title: Stable and Efficient Single-Rollout RL for Multimodal Reasoning
- Title(参考訳): マルチモーダル推論のための安定かつ効率的なシングルロールアウトRL
- Authors: Rui Liu, Dian Yu, Lei Ke, Haolin Liu, Yujun Zhou, Zhenwen Liang, Haitao Mi, Pratap Tokekar, Dong Yu,
- Abstract要約: $textbfMSSR$ (Multimodal Stabilized Single-Rollout)はグループフリーのRLVRフレームワークで、安定した最適化と効果的なマルチモーダル推論性能を実現する。
分散評価では、MSSRはトレーニングの効率が良く、トレーニングの歩数の半分でグループベースベースラインに類似した検証精度を達成できる。
- 参考スコア(独自算出の注目度): 66.53652874617217
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become a key paradigm to improve the reasoning capabilities of Multimodal Large Language Models (MLLMs). However, prevalent group-based algorithms such as GRPO require multi-rollout sampling for each prompt. While more efficient single-rollout variants have recently been explored in text-only settings, we find that they suffer from severe instability in multimodal contexts, often leading to training collapse. To address this training efficiency-stability trade-off, we introduce $\textbf{MSSR}$ (Multimodal Stabilized Single-Rollout), a group-free RLVR framework that achieves both stable optimization and effective multimodal reasoning performance. MSSR achieves this via an entropy-based advantage-shaping mechanism that adaptively regularizes advantage magnitudes, preventing collapse and maintaining training stability. While such mechanisms have been used in group-based RLVR, we show that in the multimodal single-rollout setting they are not merely beneficial but essential for stability. In in-distribution evaluations, MSSR demonstrates superior training compute efficiency, achieving similar validation accuracy to the group-based baseline with half the training steps. When trained for the same number of steps, MSSR's performance surpasses the group-based baseline and shows consistent generalization improvements across five diverse reasoning-intensive benchmarks. Together, these results demonstrate that MSSR enables stable, compute-efficient, and effective RLVR for complex multimodal reasoning tasks.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、MLLM(Multimodal Large Language Models)の推論能力を改善するための重要なパラダイムとなっている。
しかし、GRPOのような一般的なグループベースのアルゴリズムは、各プロンプトに対してマルチロールサンプリングを必要とする。
より効率的なシングルロールアウト変種は、テキストのみの設定で最近研究されているが、マルチモーダルなコンテキストでは深刻な不安定性に悩まされ、しばしばトレーニングが崩壊する。
このトレーニング効率と安定性のトレードオフに対処するため,グループフリーなRLVRフレームワークである$\textbf{MSSR}$(Multimodal Stabilized Single-Rollout)を導入する。
MSSRは、エントロピーに基づく利点形成機構によってこれを達成し、利点の大きさを適応的に正規化し、崩壊を防ぎ、訓練安定性を維持する。
このようなメカニズムは、グループベースのRLVRで使用されているが、マルチモーダルなシングルロールアウト設定では、それらは単に有用であるだけでなく、安定性に不可欠なものであることを示す。
分散評価では、MSSRはトレーニングの効率が良く、トレーニングの歩数の半分でグループベースベースラインに類似した検証精度を達成できる。
同じステップのトレーニングを行うと、MSSRのパフォーマンスはグループベースのベースラインを超え、5つの異なる推論集約ベンチマークで一貫した一般化の改善を示す。
これらの結果から、MSSRは、複雑なマルチモーダル推論タスクに対して、安定で、計算効率が高く、効果的なRLVRを可能にすることが示されている。
関連論文リスト
- Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - M2IO-R1: An Efficient RL-Enhanced Reasoning Framework for Multimodal Retrieval Augmented Multimodal Generation [21.351389727009483]
マルチモーダル入力と出力の両方をサポートするMRAMG(Multimodal Retrieval-Augmented Multimodal Generation)の新しいフレームワークであるM2IO-R1を紹介する。
我々のフレームワークの中心となるのは,RL ベースのインサータ Inserter-R1-3B であり,画像選択と配置を制御可能で意味的に整合した方法でガイドするグループ相対的ポリシー最適化(Group Relative Policy Optimization)で訓練されている。
論文 参考訳(メタデータ) (2025-08-08T14:00:19Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Balancing Multimodal Training Through Game-Theoretic Regularization [26.900302082724295]
マルチモーダル学習は、データソース間の依存関係をキャプチャすることで、よりリッチな情報抽出を約束する。
しかし、現在のトレーニング手法は、しばしばモダリティの競争によって性能が低下する。
本稿では、相互情報分解(MI)に触発されたMCR(Multimodal Competition Regularizer)を提案する。
論文 参考訳(メタデータ) (2024-11-11T19:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。