論文の概要: SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
- arxiv url: http://arxiv.org/abs/2503.18892v1
- Date: Mon, 24 Mar 2025 17:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:51.773657
- Title: SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
- Title(参考訳): SimpleRL-Zoo: 野におけるオープンベースモデルのためのゼロ強化学習の調査と学習
- Authors: Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He,
- Abstract要約: ロングチェーン・オブ・シント(CoT)推論は、ルールベースの報酬を持つ単純な強化学習フレームワークを通じて自然に現れる。
LLama3-8B,Mistral-7B/24B,DeepSeek-Math-7B,Qwen2.5-math-7B,およびQwen2.5モデル0.5Bから32Bを含む10種類のベースモデルを対象としたゼロRLトレーニングについて検討した。
- 参考スコア(独自算出の注目度): 46.25416990387885
- License:
- Abstract: DeepSeek-R1 has shown that long chain-of-thought (CoT) reasoning can naturally emerge through a simple reinforcement learning (RL) framework with rule-based rewards, where the training may directly start from the base models-a paradigm referred to as zero RL training. Most recent efforts to reproduce zero RL training have primarily focused on the Qwen2.5 model series, which may not be representative as we find the base models already exhibit strong instruction-following and self-reflection abilities. In this work, we investigate zero RL training across 10 diverse base models, spanning different families and sizes including LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B, and all Qwen2.5 models from 0.5B to 32B. Leveraging several key design strategies-such as adjusting format reward and controlling query difficulty-we achieve substantial improvements in both reasoning accuracy and response length across most settings. However, by carefully monitoring the training dynamics, we observe that different base models exhibit distinct patterns during training. For instance, the increased response length does not always correlate with the emergence of certain cognitive behaviors such as verification (i.e., the "aha moment"). Notably, we observe the "aha moment" for the first time in small models not from the Qwen family. We share the key designs that enable successful zero RL training, along with our findings and practices. To facilitate further research, we open-source the code, models, and analysis tools.
- Abstract(参考訳): DeepSeek-R1は、ルールベースの報酬を持つ単純な強化学習(RL)フレームワークを通じて、ロングチェーン・オブ・シント(CoT)推論が自然に現れることを示した。
ゼロRLトレーニングを再現しようとする最近の試みは、Qwen2.5モデルシリーズに重点を置いている。
本研究では、LLama3-8B、Mistral-7B/24B、DeepSeek-Math-7B、Qwen2.5-math-7B、および0.5Bから32BのQwen2.5モデルを含む10種類のモデルを対象としたゼロRLトレーニングについて検討する。
形式報酬の調整やクエリの難しさの制御など、いくつかの重要な設計戦略を活用することで、ほとんどの設定における推論精度と応答長の両方を大幅に改善しました。
しかしながら、トレーニングダイナミクスを注意深く監視することにより、トレーニング中に異なるベースモデルが異なるパターンを示すことが観察される。
例えば、応答長の増加は、検証のような特定の認知行動の出現(つまり「アハモーメント」)と必ずしも相関しない。
特に、クウェン族からではなく、小さなモデルで初めて「アハモーメント」を観察する。
ゼロRLトレーニングを成功させるための重要な設計と、私たちの発見と実践を共有します。
さらなる研究を容易にするため、コード、モデル、分析ツールをオープンソース化しました。
関連論文リスト
- Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - ACECODER: Acing Coder RL via Automated Test-Case Synthesis [36.740393665032954]
既存のコードデータから広範な(問い合わせ、テストケース)ペアを生成するパイプラインを設計します。
我々は,Bradley-Terry損失を伴う報酬モデルをトレーニングするために,サンプルプログラムのパスレートに基づいて選好ペアを構築した。
RLトレーニングは,80段階の最適化ステップにおいて,HumanEval+を25%以上,MBPP+を6%以上改善できることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:46:04Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Nudging: Inference-time Alignment via Model Collaboration [18.530367090350605]
我々は,任意のベースモデルを小さなアライメントモデルを用いて推論時に整列するプラグアンドプレイアルゴリズムであるnudgingを提案する。
看護は、アライメントがスタイリスティックトークンの小さなサブセット上でのモデルの振る舞いを主に変えるという最近の発見によって動機付けられている。
3つのモデルファミリーと13のタスクにまたがるヌードの有効性を評価し、推論、一般的な知識、指示追従、安全性ベンチマークについて検討した。
論文 参考訳(メタデータ) (2024-10-11T23:24:38Z) - Model-based Offline Reinforcement Learning with Lower Expectile Q-Learning [6.345851712811528]
我々は、新しいモデルに基づくオフラインRL手法、Low expectile Q-learning (LEQ)を導入する。
LEQは、$lambda$-returnsの低い期待回帰による低バイアスモデルベースの値推定を提供する。
我々の研究は、低期待の回帰、$lambda$-returns、オフラインデータに対する批判的トレーニングがLEQにとって重要であることを示した。
論文 参考訳(メタデータ) (2024-06-30T13:44:59Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。