論文の概要: MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources
- arxiv url: http://arxiv.org/abs/2509.21268v1
- Date: Thu, 25 Sep 2025 14:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:13.007277
- Title: MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources
- Title(参考訳): MMR1: 分散対応サンプリングとオープンリソースによるマルチモーダル推論の強化
- Authors: Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu,
- Abstract要約: VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
- 参考スコア(独自算出の注目度): 113.33902847941941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal reasoning models have achieved rapid progress, but their advancement is constrained by two major limitations: the absence of open, large-scale, high-quality long chain-of-thought (CoT) data, and the instability of reinforcement learning (RL) algorithms in post-training. Group Relative Policy Optimization (GRPO), the standard framework for RL fine-tuning, is prone to gradient vanishing when reward variance is low, which weakens optimization signals and impairs convergence. This work makes three contributions: (1) We propose Variance-Aware Sampling (VAS), a data selection strategy guided by Variance Promotion Score (VPS) that combines outcome variance and trajectory diversity to promote reward variance and stabilize policy optimization. (2) We release large-scale, carefully curated resources containing ~1.6M long CoT cold-start data and ~15k RL QA pairs, designed to ensure quality, difficulty, and diversity, along with a fully reproducible end-to-end training codebase. (3) We open-source a family of multimodal reasoning models in multiple scales, establishing standardized baselines for the community. Experiments across mathematical reasoning benchmarks demonstrate the effectiveness of both the curated data and the proposed VAS. Comprehensive ablation studies and analyses provide further insight into the contributions of each component. In addition, we theoretically establish that reward variance lower-bounds the expected policy gradient magnitude, with VAS serving as a practical mechanism to realize this guarantee. Our code, data, and checkpoints are available at https://github.com/LengSicong/MMR1.
- Abstract(参考訳): 大規模なマルチモーダル推論モデルは、急速な進歩を遂げているが、その進歩は、オープンで大規模で高品質なロングチェーン・オブ・シント(CoT)データの欠如と、ポストトレーニングにおける強化学習(RL)アルゴリズムの不安定という2つの大きな制限によって制限されている。
RLファインチューニングの標準フレームワークであるGRPO(Group Relative Policy Optimization)は、報酬分散が低い場合に勾配がなくなる傾向にあり、最適化信号が弱く、収束を損なう。
本研究は, 結果のばらつきと軌跡の多様性を組み合わせ, 報酬の分散を促進し, 政策最適化を安定化させるデータ選択戦略であるVAS(Variance-Aware Smpling)を提案する。
2) CoT のコールドスタートデータ ~1.6M と ~15k RL QA ペアを含み,品質,難易度,多様性を保証するとともに,完全に再現可能なエンドツーエンドのトレーニングコードベースを提供する。
(3)複数スケールのマルチモーダル推論モデルのファミリをオープンソース化し,コミュニティの標準化されたベースラインを確立する。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
包括的アブレーション研究と分析は、各コンポーネントの貢献についてさらなる洞察を与える。
さらに,報酬分散が期待される政策勾配等級を低く抑えることを理論的に確立し,VASがこの保証を実現するための実践的なメカニズムとして機能する。
私たちのコード、データ、チェックポイントはhttps://github.com/LengSicong/MMR1.comで公開されています。
関連論文リスト
- Reinforcement Learning for Multi-Objective Multi-Echelon Supply Chain Optimisation [3.1194372040101928]
重み付き和で修正した元来の単目的RLアルゴリズムに対してベンチマークした多目的強化学習(RL)法を用いてモデルを評価する。
我々は、カスタマイズ可能なシミュレータを用いて、様々なネットワーク複雑度の実験を行い、典型的な現実世界の課題を模倣する。
このモデルはサプライチェーンの経路をまたいだ生産量と納入量を決定し、競合する目標間のほぼ最適なトレードオフを達成する。
論文 参考訳(メタデータ) (2025-07-26T04:30:11Z) - Improving Multimodal Learning via Imbalanced Learning [6.93254775445168]
マルチモーダル学習はしばしば最適化されていない問題に遭遇し、一助学習よりも悪い結果をもたらす。
本稿では,バランス学習がマルチモーダル学習の最適設定ではないことを論じる。
不均衡最適化によるマルチモーダル学習を支援するための非対称表現学習(ARL)戦略を提案する。
論文 参考訳(メタデータ) (2025-07-14T12:14:57Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。
我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。
提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
論文 参考訳(メタデータ) (2024-09-21T15:50:59Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Multifidelity Reinforcement Learning with Control Variates [3.2895195535353317]
多くの計算科学や工学の応用において、与えられた入力に対応する興味あるシステムの出力は、異なるコストで異なるレベルの忠実度でクエリすることができる。
本研究では、与えられた制御タスクに対して、異なるレベルの忠実度を持つ複数の環境が存在する場合の強化学習問題について検討する。
状態-作用値関数の推定におけるばらつきを低減するために,低忠実度と高忠実度との相互相関を利用した多忠実度推定器を提案する。
論文 参考訳(メタデータ) (2022-06-10T15:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。