論文の概要: Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
- arxiv url: http://arxiv.org/abs/2503.24290v1
- Date: Mon, 31 Mar 2025 16:36:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:42.938606
- Title: Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
- Title(参考訳): Open-Reasoner-Zero: ベースモデルによる強化学習のスケールアップのためのオープンソースアプローチ
- Authors: Jingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum,
- Abstract要約: 大規模推論指向RLトレーニングの最初のオープンソース実装であるOpen-Reasoner-Zeroを紹介する。
オープンソースを念頭に置いて、ソースコード、パラメータ設定、トレーニングデータ、さまざまなサイズのモデルウェイトをリリースしています。
- 参考スコア(独自算出の注目度): 47.108822717757945
- License:
- Abstract: We introduce Open-Reasoner-Zero, the first open source implementation of large-scale reasoning-oriented RL training focusing on scalability, simplicity and accessibility. Through extensive experiments, we demonstrate that a minimalist approach, vanilla PPO with GAE ($\lambda=1$, $\gamma=1$) and straightforward rule-based rewards, without any KL regularization, is sufficient to scale up both response length and benchmark performance, similar to the phenomenon observed in DeepSeek-R1-Zero. Using the same base model as DeepSeek-R1-Zero-Qwen-32B, our implementation achieves superior performance on AIME2024, MATH500, and the GPQA Diamond benchmark while demonstrating remarkable efficiency -- requiring only a tenth of the training steps, compared to DeepSeek-R1-Zero pipeline. In the spirit of open source, we release our source code, parameter settings, training data, and model weights across various sizes.
- Abstract(参考訳): 我々はOpen-Reasoner-Zeroを紹介した。これは大規模推論指向RLトレーニングの最初のオープンソース実装で、スケーラビリティ、シンプルさ、アクセシビリティに重点を置いている。
より広範な実験により,GAE($\lambda=1$, $\gamma=1$)のバニラPPOと,KL正則化を伴わない単純なルールベースの報酬は,DeepSeek-R1-Zeroで見られる現象と同様に,応答長とベンチマークパフォーマンスの両方をスケールアップするのに十分であることを示した。
DeepSeek-R1-Zero-Qwen-32Bと同じベースモデルを使用して、我々の実装は、AIME2024、MATH500、GPQA Diamondベンチマークにおいて優れたパフォーマンスを実現し、優れた効率を示す一方で、DeepSeek-R1-Zeroパイプラインと比較してトレーニングステップの10分の1しか必要としない。
オープンソースを念頭に置いて、ソースコード、パラメータ設定、トレーニングデータ、さまざまなサイズのモデルウェイトをリリースしています。
関連論文リスト
- LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.16121855209246]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。
DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。
DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文 参考訳(メタデータ) (2025-01-22T15:19:35Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models [61.14336781917986]
大規模言語モデル(LLM)の推論能力を高めるためのオープンソースのフレームワークであるOpenRを紹介する。
OpenRは、データ取得、強化学習トレーニング、非自己回帰デコーディングを凝集性ソフトウェアプラットフォームに統合する。
私たちの研究は、OpenAIのo1モデルのコア技術と強化学習を探求する、オープンソースのフレームワークを初めて提供するものです。
論文 参考訳(メタデータ) (2024-10-12T23:42:16Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training [33.11416096294998]
ゼロオーダー(ZO)最適化は、機械学習(ML)問題を解決する一般的なテクニックとなっている。
ディープニューラルネットワーク(DNN)のトレーニングにおけるZO最適化の有効性を、パフォーマンスを著しく低下させることなく実証した以前の研究はない。
我々は,ZO最適化をDNNトレーニングにスクラッチから拡張可能なZOディープラーニング(DL)フレームワークであるDeepZeroを開発した。
論文 参考訳(メタデータ) (2023-10-03T13:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。