論文の概要: R-Zero: Self-Evolving Reasoning LLM from Zero Data
- arxiv url: http://arxiv.org/abs/2508.05004v1
- Date: Thu, 07 Aug 2025 03:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.700327
- Title: R-Zero: Self-Evolving Reasoning LLM from Zero Data
- Title(参考訳): R-Zero:ゼロデータからの自己進化型LLM
- Authors: Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu,
- Abstract要約: 自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。
このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。
R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
- 参考スコア(独自算出の注目度): 56.74402018426378
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully autonomous framework that generates its own training data from scratch. Starting from a single base LLM, R-Zero initializes two independent models with distinct roles, a Challenger and a Solver. These models are optimized separately and co-evolve through interaction: the Challenger is rewarded for proposing tasks near the edge of the Solver capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger. This process yields a targeted, self-improving curriculum without any pre-existing tasks and labels. Empirically, R-Zero substantially improves reasoning capability across different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.
- Abstract(参考訳): 自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。
しかし、そのようなモデルをトレーニングするための既存の方法は、通常、微調整や強化学習を通じて、大規模な人為的なタスクやラベルに大きく依存している。
この制限を克服するため、私たちはR-Zeroという完全に自律的なフレームワークを導入しました。
シングルベースLLMから始められたR-Zeroは、異なる役割を持つ2つの独立したモデル、チャレンジャーとソルバーを初期化する。
これらのモデルは個別に最適化され、相互作用を通じて共進化する。チャレンジャーはソルバー能力の端近くでタスクを提案し、ソルバーはチャレンジャーによって引き起こされるますます困難なタスクを解決することで報酬を受ける。
このプロセスは、既存のタスクやラベルを使わずに、目標とする自己改善カリキュラムをもたらす。
R-Zeroは、例えばQwen3-4B-Baseを数学推論ベンチマークで+6.49、一般ドメイン推論ベンチマークで+7.54に向上させた。
関連論文リスト
- L0: Reinforcement Learning to Become General Agents [9.210885263681119]
汎用エージェントのためのスケーラブルでエンドツーエンドのトレーニングパイプラインであるL-Zero(L0)を紹介する。
L0 内のエージェント足場である NB-Agent は Read-Eval-Print-Loop (REPL) を介して "code-as-action" 方式で動作している。
RLVR(Reinforcement Learning with Verifiable Rewards)のみを用いて,ベースモデルによる堅牢な問題解決技術の開発が実証された。
論文 参考訳(メタデータ) (2025-06-30T09:44:32Z) - Absolute Zero: Reinforced Self-play Reasoning with Zero Data [61.46462130246158]
検証可能な報奨付き強化学習(RLVR)は,大規模言語モデルの推論能力を高めることを約束している。
本稿では,AZR(Absolute Zero Reasoner)について紹介する。
AZRは、コーディングおよび数学的推論タスクにおける全体的なSOTA性能を達成し、既存のゼロセットモデルより優れている。
論文 参考訳(メタデータ) (2025-05-06T09:08:00Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。