Fugu-MT 論文翻訳(概要): Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

論文の概要: Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

arxiv url: http://arxiv.org/abs/2504.16656v4
Date: Fri, 06 Jun 2025 07:27:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:42.954776
Title: Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
Title（参考訳）: Skywork R1V2: 推論のためのマルチモーダルハイブリッド強化学習
Authors: Peiyu Wang, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou,
Abstract要約: 次世代マルチモーダル推論モデルであるSkywork R1V2を提案する。コアとなるR1V2では、ハイブリッド強化学習パラダイムが導入されている。
参考スコア（独自算出の注目度）: 15.61345581743979
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Skywork R1V2, a next-generation multimodal reasoning model and a major leap forward from its predecessor, Skywork R1V. At its core, R1V2 introduces a hybrid reinforcement learning paradigm that jointly leverages the Mixed Preference Optimization (MPO) and the Group Relative Policy Optimization (GRPO), which harmonizes reward-model guidance with rule-based strategies, thereby addressing the long-standing challenge of balancing sophisticated reasoning capabilities with broad generalization. To further enhance training efficiency, we propose the Selective Sample Buffer (SSB) mechanism, which effectively addresses the vanishing advantages dilemma inherent in GRPO by prioritizing high-value samples throughout the optimization process. Notably, we observe that excessive reinforcement signals can induce visual hallucinations--a phenomenon we systematically monitor and mitigate through calibrated reward thresholds throughout the training process. Empirical results affirm the exceptional capability of R1V2, with benchmark-leading performances such as 62.6 on OlympiadBench, 78.9 on AIME2024, 63.6 on LiveCodeBench, and 73.6 on MMMU. These results underscore R1V2's superiority over existing open-source models and demonstrate significant progress in closing the performance gap with premier proprietary systems, including Gemini 2.5 and OpenAI-o4-mini. The Skywork R1V2 model weights have been publicly released to promote openness and reproducibility https://huggingface.co/Skywork/Skywork-R1V2-38B.
Abstract（参考訳）: 次世代マルチモーダル推論モデルであるSkywork R1V2について述べる。コアとなるR1V2は、Mixed Preference Optimization (MPO) と Group Relative Policy Optimization (GRPO) を併用したハイブリッド強化学習パラダイムを導入している。トレーニング効率をさらに高めるため,最適化プロセス全体を通じて高値サンプルを優先順位付けすることにより,GRPO固有のジレンマを効果的に解消するSelective Sample Buffer (SSB) 機構を提案する。特に,過度に強化された信号が視覚幻覚を誘発する現象が観察される。実証的な結果は、OlympiadBenchの62.6、AIME2024の78.9、LiveCodeBenchの63.6、MMMUの73.6など、R1V2の異常な性能を裏付けている。これらの結果は、既存のオープンソースモデルよりもR1V2の方が優れており、Gemini 2.5やOpenAI-o4-miniといった主要なプロプライエタリシステムとのパフォーマンスギャップを埋める大きな進歩を示している。 Skywork R1V2モデルウェイトは、オープン性と再現性を促進するために、 https://huggingface.co/Skywork/Skywork-R1V2-38B として公開された。

関連論文リスト

RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。 RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文参考訳（メタデータ） (2025-07-31T23:55:29Z)
MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization [74.04867639197445]
MiroMind-M1 は Qwen-2.5 ベースのベンチマーク上に構築された完全なオープンソース RLM のセットである。我々のモデルは2つの段階で訓練されている: SFT on a carefully curated corpus of 719K math-reasoning problem with confirmed CoT trajectories, then RLVR on 62K challenge and verible problem。
論文参考訳（メタデータ） (2025-07-19T16:21:23Z)
Skywork-R1V3 Technical Report [14.952041273882639]
先進的でオープンソースの視覚言語モデル(VLM)であるSkywork-R1V3を紹介する。主要なイノベーションは、推論スキルをテキストのみの大規模言語モデルから視覚タスクに効果的に移行することにある。重要な推論トークンのエントロピーである推論能力のユニークな指標を導入し,チェックポイント選択に極めて有効であることが証明された。
論文参考訳（メタデータ） (2025-07-08T16:47:16Z)
Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning [48.426139299991604]
プロセス認識型RLを実現する新しいフレームワークである textbfSPRO を提案する。 SPROはバニラGRPOより3.4倍高い訓練効率と17.5%の精度で性能が向上した。特にSPROは、GRPOのような結果管理されたRL法と比較して、工業的実装に有利な計算オーバーヘッドを伴わない。
論文参考訳（メタデータ） (2025-07-02T10:05:14Z)
Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy [26.455112415445146]
我々はSkywork-Reward-V2という,0.6Bから8Bパラメータの8つの報酬モデルスイートを紹介し,SynPref-40Mから600万の選好ペアのサブセットをトレーニングした。我々は、Skywork-Reward-V2が、人間の嗜好、客観的な正しさ、安全性、スタイリスティックなバイアスへの抵抗、Nのベスト・オブ・スケーリングなど、幅広い能力にまたがる汎用性を実証した。
論文参考訳（メタデータ） (2025-07-02T04:40:29Z)
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。 SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文参考訳（メタデータ） (2025-06-19T08:49:13Z)
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models [18.06361678575107]
視覚基盤モデルのコンテキスト内推論能力をインセンティブ化する最初の試みであるtextbfDINO-R1 を提案する。 DINO-R1は、新しい強化スタイルのトレーニング戦略である textbfGroup Relative Query Optimization (GRQO) を導入した。 COCO、LVIS、ODinWの実験により、DINO-R1は制御された微調整ベースラインを著しく上回ることが示された。
論文参考訳（メタデータ） (2025-05-29T21:58:06Z)
Skywork Open Reasoner 1 Technical Report [51.403686909760914]
提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。 DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
論文参考訳（メタデータ） (2025-05-28T12:56:04Z)
Reinforcement Learning for Reasoning in Large Language Models with One Training Example [129.11571295790807]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。 1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文参考訳（メタデータ） (2025-04-29T09:24:30Z)
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文参考訳（メタデータ） (2025-04-15T16:15:02Z)
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
GPT-o1とDeepSeek-R1は、明示的な反射によって難しい問題を解く大きな可能性を示した。本稿では、強化学習を用いて、視覚言語モデルの遅い思考能力を向上させることを目的とする。我々のモデルであるVL-Rethinkerは、MathVista、MathVerse、MathVisionの最先端スコアを80.3%、61.8%、43.9%に向上させています。
論文参考訳（メタデータ） (2025-04-10T17:41:56Z)
Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought [16.183329458166618]
本稿では,R1系列のLarge Language Model (LLM) を拡張したマルチモーダル推論モデルであるSkywork R1Vを紹介する。本稿では,反復監視ファインチューニング(SFT)とグループ相対政策最適化(GRPO)を組み合わせたハイブリッド最適化手法を提案する。実験的な評価では、Skywork R1Vは38Bのパラメータしか持たず、MMMUベンチマークで69.0、MathVistaで67.5のスコアを得た。
論文参考訳（メタデータ） (2025-04-08T01:19:20Z)
Improved Visual-Spatial Reasoning via R1-Zero-Like Training [18.61987706753493]
ビデオ視覚空間インテリジェンス(VSI)は、マルチモーダル大言語モデル(MLLM)の最も重要な推論能力の1つである。この研究は、R1-Zeroライクなトレーニングを通してMLLMの視覚空間的推論を改善するための、最初の詳細な研究を行う。
論文参考訳（メタデータ） (2025-04-01T15:11:11Z)
OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。 GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文参考訳（メタデータ） (2025-03-20T12:22:18Z)
Explainable AI-aided Feature Selection and Model Reduction for DRL-based V2X Resource Allocation [18.49800990388549]
人工知能(AI)は,第6世代(6G)ネットワークにおいて,無線リソース管理(RRM)を大幅に強化することが期待されている。複雑なディープラーニング(DL)モデルにおける説明可能性の欠如は、実践的な実装に課題をもたらす。本稿では,特徴選択とモデル複雑性低減のための新しいAI(XAI)ベースのフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-23T10:55:38Z)
RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文参考訳（メタデータ） (2024-09-20T01:46:07Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences [21.5605000515622]
本稿では,大言語モデル(LLM)の学習後,オラクルからの嗜好フィードバックを用いて,モデル自体を反復的に改善する手法について検討する。提案手法は,理論的な一般化と対照的な学習の単純さと安定性を,一般の選好の最適化からマージする,証明可能かつ効率的なアルゴリズムである。実験で得られた 7B パラメータ Orca-2.5 モデルは,AlpacaE 2.0 上で 33% の GPT-4-Turbo に対して,初期化モデルに対して 26% (7% から 33%) の絶対ゲインを達成した。
論文参考訳（メタデータ） (2024-04-04T17:56:41Z)
WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文参考訳（メタデータ） (2024-01-22T18:27:08Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
When Does Contrastive Learning Preserve Adversarial Robustness from Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文参考訳（メタデータ） (2021-11-01T17:59:43Z)
Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文参考訳（メタデータ） (2020-06-10T11:18:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。