論文の概要: Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
- arxiv url: http://arxiv.org/abs/2504.16656v4
- Date: Fri, 06 Jun 2025 07:27:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:42.954776
- Title: Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
- Title(参考訳): Skywork R1V2: 推論のためのマルチモーダルハイブリッド強化学習
- Authors: Peiyu Wang, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou,
- Abstract要約: 次世代マルチモーダル推論モデルであるSkywork R1V2を提案する。
コアとなるR1V2では、ハイブリッド強化学習パラダイムが導入されている。
- 参考スコア(独自算出の注目度): 15.61345581743979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Skywork R1V2, a next-generation multimodal reasoning model and a major leap forward from its predecessor, Skywork R1V. At its core, R1V2 introduces a hybrid reinforcement learning paradigm that jointly leverages the Mixed Preference Optimization (MPO) and the Group Relative Policy Optimization (GRPO), which harmonizes reward-model guidance with rule-based strategies, thereby addressing the long-standing challenge of balancing sophisticated reasoning capabilities with broad generalization. To further enhance training efficiency, we propose the Selective Sample Buffer (SSB) mechanism, which effectively addresses the vanishing advantages dilemma inherent in GRPO by prioritizing high-value samples throughout the optimization process. Notably, we observe that excessive reinforcement signals can induce visual hallucinations--a phenomenon we systematically monitor and mitigate through calibrated reward thresholds throughout the training process. Empirical results affirm the exceptional capability of R1V2, with benchmark-leading performances such as 62.6 on OlympiadBench, 78.9 on AIME2024, 63.6 on LiveCodeBench, and 73.6 on MMMU. These results underscore R1V2's superiority over existing open-source models and demonstrate significant progress in closing the performance gap with premier proprietary systems, including Gemini 2.5 and OpenAI-o4-mini. The Skywork R1V2 model weights have been publicly released to promote openness and reproducibility https://huggingface.co/Skywork/Skywork-R1V2-38B.
- Abstract(参考訳): 次世代マルチモーダル推論モデルであるSkywork R1V2について述べる。
コアとなるR1V2は、Mixed Preference Optimization (MPO) と Group Relative Policy Optimization (GRPO) を併用したハイブリッド強化学習パラダイムを導入している。
トレーニング効率をさらに高めるため,最適化プロセス全体を通じて高値サンプルを優先順位付けすることにより,GRPO固有のジレンマを効果的に解消するSelective Sample Buffer (SSB) 機構を提案する。
特に,過度に強化された信号が視覚幻覚を誘発する現象が観察される。
実証的な結果は、OlympiadBenchの62.6、AIME2024の78.9、LiveCodeBenchの63.6、MMMUの73.6など、R1V2の異常な性能を裏付けている。
これらの結果は、既存のオープンソースモデルよりもR1V2の方が優れており、Gemini 2.5やOpenAI-o4-miniといった主要なプロプライエタリシステムとのパフォーマンスギャップを埋める大きな進歩を示している。
Skywork R1V2モデルウェイトは、オープン性と再現性を促進するために、 https://huggingface.co/Skywork/Skywork-R1V2-38B として公開された。
関連論文リスト
- Reinforcement Learning for Reasoning in Large Language Models with One Training Example [129.11571295790807]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
GPT-o1とDeepSeek-R1は、明示的な反射によって難しい問題を解く大きな可能性を示した。
本稿では、強化学習を用いて、視覚言語モデルの遅い思考能力を向上させることを目的とする。
我々のモデルであるVL-Rethinkerは、MathVista、MathVerse、MathVisionの最先端スコアを80.3%、61.8%、43.9%に向上させています。
論文 参考訳(メタデータ) (2025-04-10T17:41:56Z) - Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought [16.183329458166618]
本稿では,R1系列のLarge Language Model (LLM) を拡張したマルチモーダル推論モデルであるSkywork R1Vを紹介する。
本稿では,反復監視ファインチューニング(SFT)とグループ相対政策最適化(GRPO)を組み合わせたハイブリッド最適化手法を提案する。
実験的な評価では、Skywork R1Vは38Bのパラメータしか持たず、MMMUベンチマークで69.0、MathVistaで67.5のスコアを得た。
論文 参考訳(メタデータ) (2025-04-08T01:19:20Z) - Improved Visual-Spatial Reasoning via R1-Zero-Like Training [18.61987706753493]
ビデオ視覚空間インテリジェンス(VSI)は、マルチモーダル大言語モデル(MLLM)の最も重要な推論能力の1つである。
この研究は、R1-Zeroライクなトレーニングを通してMLLMの視覚空間的推論を改善するための、最初の詳細な研究を行う。
論文 参考訳(メタデータ) (2025-04-01T15:11:11Z) - OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。
具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。
GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文 参考訳(メタデータ) (2025-03-20T12:22:18Z) - Explainable AI-aided Feature Selection and Model Reduction for DRL-based V2X Resource Allocation [18.49800990388549]
人工知能(AI)は,第6世代(6G)ネットワークにおいて,無線リソース管理(RRM)を大幅に強化することが期待されている。
複雑なディープラーニング(DL)モデルにおける説明可能性の欠如は、実践的な実装に課題をもたらす。
本稿では,特徴選択とモデル複雑性低減のための新しいAI(XAI)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-23T10:55:38Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences [21.5605000515622]
本稿では,大言語モデル(LLM)の学習後,オラクルからの嗜好フィードバックを用いて,モデル自体を反復的に改善する手法について検討する。
提案手法は,理論的な一般化と対照的な学習の単純さと安定性を,一般の選好の最適化からマージする,証明可能かつ効率的なアルゴリズムである。
実験で得られた 7B パラメータ Orca-2.5 モデルは,AlpacaE 2.0 上で 33% の GPT-4-Turbo に対して,初期化モデルに対して 26% (7% から 33%) の絶対ゲインを達成した。
論文 参考訳(メタデータ) (2024-04-04T17:56:41Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。