論文の概要: Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
- arxiv url: http://arxiv.org/abs/2503.24290v1
- Date: Mon, 31 Mar 2025 16:36:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.508842
- Title: Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
- Title(参考訳): Open-Reasoner-Zero: ベースモデルによる強化学習のスケールアップのためのオープンソースアプローチ
- Authors: Jingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum,
- Abstract要約: 大規模推論指向RLトレーニングの最初のオープンソース実装であるOpen-Reasoner-Zeroを紹介する。
オープンソースを念頭に置いて、ソースコード、パラメータ設定、トレーニングデータ、さまざまなサイズのモデルウェイトをリリースしています。
- 参考スコア(独自算出の注目度): 47.108822717757945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Open-Reasoner-Zero, the first open source implementation of large-scale reasoning-oriented RL training focusing on scalability, simplicity and accessibility. Through extensive experiments, we demonstrate that a minimalist approach, vanilla PPO with GAE ($\lambda=1$, $\gamma=1$) and straightforward rule-based rewards, without any KL regularization, is sufficient to scale up both response length and benchmark performance, similar to the phenomenon observed in DeepSeek-R1-Zero. Using the same base model as DeepSeek-R1-Zero-Qwen-32B, our implementation achieves superior performance on AIME2024, MATH500, and the GPQA Diamond benchmark while demonstrating remarkable efficiency -- requiring only a tenth of the training steps, compared to DeepSeek-R1-Zero pipeline. In the spirit of open source, we release our source code, parameter settings, training data, and model weights across various sizes.
- Abstract(参考訳): 我々はOpen-Reasoner-Zeroを紹介した。これは大規模推論指向RLトレーニングの最初のオープンソース実装で、スケーラビリティ、シンプルさ、アクセシビリティに重点を置いている。
より広範な実験により,GAE($\lambda=1$, $\gamma=1$)のバニラPPOと,KL正則化を伴わない単純なルールベースの報酬は,DeepSeek-R1-Zeroで見られる現象と同様に,応答長とベンチマークパフォーマンスの両方をスケールアップするのに十分であることを示した。
DeepSeek-R1-Zero-Qwen-32Bと同じベースモデルを使用して、我々の実装は、AIME2024、MATH500、GPQA Diamondベンチマークにおいて優れたパフォーマンスを実現し、優れた効率を示す一方で、DeepSeek-R1-Zeroパイプラインと比較してトレーニングステップの10分の1しか必要としない。
オープンソースを念頭に置いて、ソースコード、パラメータ設定、トレーニングデータ、さまざまなサイズのモデルウェイトをリリースしています。
関連論文リスト
- SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - Understanding R1-Zero-Like Training: A Critical Perspective [38.515771096651356]
ベースモデルとRLの2つのコアコンポーネントを分析し,R1-Zeroライクなトレーニングを批判的に検討した。
本稿では,DeepSeek-V3-Baseを含む幅広いベースモデルについて検討し,事前学習特性がRL性能に与える影響について考察する。
AIME 2024では7Bベースモデルで43.3%の精度を達成できる最小限のR1-Zeroレシピを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:59:14Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - Think Inside the JSON: Reinforcement Strategy for Strict LLM Schema Adherence [0.0]
本稿では,大規模言語モデル(LLM)生成における厳密なスキーマ順守を推論能力を活用することによる課題に対処する。
我々のアプローチは、新しいパイプラインを通して1.5Bパラメータモデルの構造的推論スキルを訓練する。
我々はThinkJSONのアプローチを、オリジナルのDeepSeek R1 (671B)、DeepSeek R1 (Qwen-1.5BとQwen-7B)、Gemini 2.0 Flash (70B)の蒸留版と比較する。
論文 参考訳(メタデータ) (2025-02-18T16:44:55Z) - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.16121855209246]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。
DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。
DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文 参考訳(メタデータ) (2025-01-22T15:19:35Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training [33.11416096294998]
ゼロオーダー(ZO)最適化は、機械学習(ML)問題を解決する一般的なテクニックとなっている。
ディープニューラルネットワーク(DNN)のトレーニングにおけるZO最適化の有効性を、パフォーマンスを著しく低下させることなく実証した以前の研究はない。
我々は,ZO最適化をDNNトレーニングにスクラッチから拡張可能なZOディープラーニング(DL)フレームワークであるDeepZeroを開発した。
論文 参考訳(メタデータ) (2023-10-03T13:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。