論文の概要: Understanding R1-Zero-Like Training: A Critical Perspective
- arxiv url: http://arxiv.org/abs/2503.20783v1
- Date: Wed, 26 Mar 2025 17:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 19:18:47.282098
- Title: Understanding R1-Zero-Like Training: A Critical Perspective
- Title(参考訳): R1-Zeroライクなトレーニングを理解する - 批判的視点
- Authors: Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin,
- Abstract要約: ベースモデルとRLの2つのコアコンポーネントを分析し,R1-Zeroライクなトレーニングを批判的に検討した。
本稿では,DeepSeek-V3-Baseを含む幅広いベースモデルについて検討し,事前学習特性がRL性能に与える影響について考察する。
AIME 2024では7Bベースモデルで43.3%の精度を達成できる最小限のR1-Zeroレシピを提案する。
- 参考スコア(独自算出の注目度): 38.515771096651356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DeepSeek-R1-Zero has shown that reinforcement learning (RL) at scale can directly enhance the reasoning capabilities of LLMs without supervised fine-tuning. In this work, we critically examine R1-Zero-like training by analyzing its two core components: base models and RL. We investigate a wide range of base models, including DeepSeek-V3-Base, to understand how pretraining characteristics influence RL performance. Our analysis reveals that DeepSeek-V3-Base already exhibit ''Aha moment'', while Qwen2.5 base models demonstrate strong reasoning capabilities even without prompt templates, suggesting potential pretraining biases. Additionally, we identify an optimization bias in Group Relative Policy Optimization (GRPO), which artificially increases response length (especially for incorrect outputs) during training. To address this, we introduce Dr. GRPO, an unbiased optimization method that improves token efficiency while maintaining reasoning performance. Leveraging these insights, we present a minimalist R1-Zero recipe that achieves 43.3% accuracy on AIME 2024 with a 7B base model, establishing a new state-of-the-art. Our code is available at https://github.com/sail-sg/understand-r1-zero.
- Abstract(参考訳): DeepSeek-R1-Zeroは、大規模に強化学習(RL)を行うことで、微調整を監督せずにLSMの推論能力を直接的に向上できることを示した。
本研究では,ベースモデルとRLの2つのコアコンポーネントを分析し,R1-Zeroライクなトレーニングを批判的に検討する。
本稿では,DeepSeek-V3-Baseを含む幅広いベースモデルについて検討し,事前学習特性がRL性能に与える影響について考察する。
我々の分析によると、DeepSeek-V3-Baseはすでに'Aha moment'を示しており、Qwen2.5ベースモデルはテンプレートのプロンプトなしでも強力な推論能力を示し、潜在的な事前学習バイアスを示唆している。
さらに,グループ相対政策最適化(GRPO)において,学習中の応答長(特に誤出力)を人工的に増加させる最適化バイアスを同定する。
そこで本研究では,推論性能を維持しつつトークン効率を向上する非バイアス最適化手法であるDr. GRPOを紹介する。
これらの知見を活かし、7Bベースモデルで AIME 2024 上で43.3% の精度を達成する最小限の R1-Zero レシピを提示し、新しい最先端技術を確立した。
私たちのコードはhttps://github.com/sail-sg/understand-r1-zeroで公開されています。
関連論文リスト
- SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Improved Visual-Spatial Reasoning via R1-Zero-Like Training [18.61987706753493]
ビデオ視覚空間インテリジェンス(VSI)は、マルチモーダル大言語モデル(MLLM)の最も重要な推論能力の1つである。
この研究は、R1-Zeroライクなトレーニングを通してMLLMの視覚空間的推論を改善するための、最初の詳細な研究を行う。
論文 参考訳(メタデータ) (2025-04-01T15:11:11Z) - Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model [47.108822717757945]
大規模推論指向RLトレーニングの最初のオープンソース実装であるOpen-Reasoner-Zeroを紹介する。
オープンソースを念頭に置いて、ソースコード、パラメータ設定、トレーニングデータ、さまざまなサイズのモデルウェイトをリリースしています。
論文 参考訳(メタデータ) (2025-03-31T16:36:05Z) - SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild [46.25416990387885]
ロングチェーン・オブ・シント(CoT)推論は、ルールベースの報酬を持つ単純な強化学習フレームワークを通じて自然に現れる。
LLama3-8B,Mistral-7B/24B,DeepSeek-Math-7B,Qwen2.5-math-7B,およびQwen2.5モデル0.5Bから32Bを含む10種類のベースモデルを対象としたゼロRLトレーニングについて検討した。
論文 参考訳(メタデータ) (2025-03-24T17:06:10Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training [33.11416096294998]
ゼロオーダー(ZO)最適化は、機械学習(ML)問題を解決する一般的なテクニックとなっている。
ディープニューラルネットワーク(DNN)のトレーニングにおけるZO最適化の有効性を、パフォーマンスを著しく低下させることなく実証した以前の研究はない。
我々は,ZO最適化をDNNトレーニングにスクラッチから拡張可能なZOディープラーニング(DL)フレームワークであるDeepZeroを開発した。
論文 参考訳(メタデータ) (2023-10-03T13:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。