論文の概要: SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
- arxiv url: http://arxiv.org/abs/2503.18892v1
- Date: Mon, 24 Mar 2025 17:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:17.399349
- Title: SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
- Title(参考訳): SimpleRL-Zoo: 野におけるオープンベースモデルのためのゼロ強化学習の調査と学習
- Authors: Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He,
- Abstract要約: ロングチェーン・オブ・シント(CoT)推論は、ルールベースの報酬を持つ単純な強化学習フレームワークを通じて自然に現れる。
LLama3-8B,Mistral-7B/24B,DeepSeek-Math-7B,Qwen2.5-math-7B,およびQwen2.5モデル0.5Bから32Bを含む10種類のベースモデルを対象としたゼロRLトレーニングについて検討した。
- 参考スコア(独自算出の注目度): 46.25416990387885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DeepSeek-R1 has shown that long chain-of-thought (CoT) reasoning can naturally emerge through a simple reinforcement learning (RL) framework with rule-based rewards, where the training may directly start from the base models-a paradigm referred to as zero RL training. Most recent efforts to reproduce zero RL training have primarily focused on the Qwen2.5 model series, which may not be representative as we find the base models already exhibit strong instruction-following and self-reflection abilities. In this work, we investigate zero RL training across 10 diverse base models, spanning different families and sizes including LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B, and all Qwen2.5 models from 0.5B to 32B. Leveraging several key design strategies-such as adjusting format reward and controlling query difficulty-we achieve substantial improvements in both reasoning accuracy and response length across most settings. However, by carefully monitoring the training dynamics, we observe that different base models exhibit distinct patterns during training. For instance, the increased response length does not always correlate with the emergence of certain cognitive behaviors such as verification (i.e., the "aha moment"). Notably, we observe the "aha moment" for the first time in small models not from the Qwen family. We share the key designs that enable successful zero RL training, along with our findings and practices. To facilitate further research, we open-source the code, models, and analysis tools.
- Abstract(参考訳): DeepSeek-R1は、ルールベースの報酬を持つ単純な強化学習(RL)フレームワークを通じて、ロングチェーン・オブ・シント(CoT)推論が自然に現れることを示した。
ゼロRLトレーニングを再現しようとする最近の試みは、Qwen2.5モデルシリーズに重点を置いている。
本研究では、LLama3-8B、Mistral-7B/24B、DeepSeek-Math-7B、Qwen2.5-math-7B、および0.5Bから32BのQwen2.5モデルを含む10種類のモデルを対象としたゼロRLトレーニングについて検討する。
形式報酬の調整やクエリの難しさの制御など、いくつかの重要な設計戦略を活用することで、ほとんどの設定における推論精度と応答長の両方を大幅に改善しました。
しかしながら、トレーニングダイナミクスを注意深く監視することにより、トレーニング中に異なるベースモデルが異なるパターンを示すことが観察される。
例えば、応答長の増加は、検証のような特定の認知行動の出現(つまり「アハモーメント」)と必ずしも相関しない。
特に、クウェン族からではなく、小さなモデルで初めて「アハモーメント」を観察する。
ゼロRLトレーニングを成功させるための重要な設計と、私たちの発見と実践を共有します。
さらなる研究を容易にするため、コード、モデル、分析ツールをオープンソース化しました。
関連論文リスト
- Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,LLMの推論能力の向上に成功している。
我々は、この仮定を再検討し、pass@textitkメトリックを大量のtextitk値で測定し、モデルの推論能力境界を探索する。
我々は、RLがエノノット、事実、根本的に新しい推論パターンを誘発することを発見した。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Understanding R1-Zero-Like Training: A Critical Perspective [38.515771096651356]
ベースモデルとRLの2つのコアコンポーネントを分析し,R1-Zeroライクなトレーニングを批判的に検討した。
本稿では,DeepSeek-V3-Baseを含む幅広いベースモデルについて検討し,事前学習特性がRL性能に与える影響について考察する。
AIME 2024では7Bベースモデルで43.3%の精度を達成できる最小限のR1-Zeroレシピを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:59:14Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Model-based Offline Reinforcement Learning with Lower Expectile Q-Learning [6.345851712811528]
我々は、新しいモデルに基づくオフラインRL手法、Low expectile Q-learning (LEQ)を導入する。
LEQは、$lambda$-returnsの低い期待回帰による低バイアスモデルベースの値推定を提供する。
我々の研究は、低期待の回帰、$lambda$-returns、オフラインデータに対する批判的トレーニングがLEQにとって重要であることを示した。
論文 参考訳(メタデータ) (2024-06-30T13:44:59Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。