論文の概要: Zero Reinforcement Learning Towards General Domains
- arxiv url: http://arxiv.org/abs/2510.25528v1
- Date: Wed, 29 Oct 2025 13:52:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.683771
- Title: Zero Reinforcement Learning Towards General Domains
- Title(参考訳): 一般分野へのゼロ強化学習
- Authors: Yuyuan Zeng, Yufei Huang, Can Xu, Qingfeng Sun, Jianfeng Yan, Guanghui Xu, Tao Yang, Fengzong Lian,
- Abstract要約: 検証可能な領域と検証できない領域の両方にわたってモデルの推論能力を向上させるために設計された新しいゼロRLパラダイムを提案する。
検証可能な報酬と生成的報酬モデルを組み合わせることで、両領域をまたいだマルチタスクゼロRLトレーニングを行う。
Qwen3-8B-BaseとQwen3-14B-Baseの実験結果から,本手法が優れた推論性能を実現することを示す。
- 参考スコア(独自算出の注目度): 27.62364890827269
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Zero Reinforcement Learning (Zero-RL) has proven to be an effective approach for enhancing the reasoning capabilities of large language models (LLMs) by directly applying reinforcement learning with verifiable rewards on pretrained models, without the need for a supervised fine-tuning phase. However, current research on zero-RL primarily focuses on domains with easily verifiable reward signals, such as mathematics, programming, and other reasoning tasks. The challenge of eliciting reasoning abilities in more diverse scenarios, where verification is not straightforward, remains underexplored. To address this gap, we propose a novel zero-RL paradigm designed to improve a model's reasoning ability across both verifiable and non-verifiable domains. By combining verifiable rewards with a generative reward model, we conduct multi-task zero-RL training across both domains, facilitating the transfer of reasoning capabilities between them. Furthermore, to mitigate reward hacking in the generative reward model, we design a smooth length penalty that encourages the generation of more comprehensive thinking tokens in general domains. Experimental results on Qwen3-8B-Base and Qwen3-14B-Base demonstrate that our approach achieves superior reasoning performance, not only on tasks requiring extensive reasoning but also on more general tasks.
- Abstract(参考訳): ゼロ強化学習(Zero-RL)は、教師付き微調整フェーズを必要とせず、事前訓練されたモデルに検証可能な報酬で強化学習を直接適用することにより、大規模言語モデル(LLM)の推論能力を高める効果的なアプローチであることが証明されている。
しかしながら、0-RLに関する現在の研究は、主に数学、プログラミング、その他の推論タスクなど、容易に検証可能な報酬信号を持つ領域に焦点を当てている。
検証が簡単ではない、より多様なシナリオで推論能力を引き出すという課題は、まだ解明されていない。
このギャップに対処するために、検証可能領域と検証不可能領域の両方にわたるモデルの推論能力を改善するために設計された新しいゼロRLパラダイムを提案する。
検証可能な報酬と生成的報酬モデルを組み合わせることで、両領域をまたいだマルチタスクゼロRLトレーニングを行い、それらの間における推論能力の伝達を容易にする。
さらに、生成報酬モデルにおける報酬のハッキングを軽減するため、一般的なドメインにおけるより包括的な思考トークンの生成を促すスムーズな長さのペナルティを設計する。
Qwen3-8B-BaseとQwen3-14B-Baseの実験結果から,提案手法は広範囲な推論を必要とするタスクだけでなく,より一般的なタスクでも優れた推論性能が得られることが示された。
関連論文リスト
- Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective [82.24301452333577]
強化学習(RL)は,大規模言語モデル(LLM)推論を改善するための有望なアプローチとして登場した。
重要な課題は、様々な推論領域にまたがる信頼性とスケーラブルなRL報酬信号の欠如である。
我々は,6つの推論領域にまたがる92Kの検証可能な例をキュレートしたRL推論コーパスであるGuruを紹介する。
論文 参考訳(メタデータ) (2025-06-17T20:24:00Z) - Maximizing Confidence Alone Improves Reasoning [48.83927980325788]
RENT: エントロピー最小化による強化学習(Reinforcement Learning via Entropy Minimization)は、完全な教師なしのRL手法であり、外部の報酬や地道的な回答を必要としない。
得られた回答に高いモデル信頼をもたらす思考の連鎖を強化することで、モデルは推論能力を向上させる。
論文 参考訳(メタデータ) (2025-05-28T17:59:37Z) - Absolute Zero: Reinforced Self-play Reasoning with Zero Data [57.30662797376754]
検証可能な報奨付き強化学習(RLVR)は,大規模言語モデルの推論能力を高めることを約束している。
本稿では,AZR(Absolute Zero Reasoner)について紹介する。
AZRは、コーディングおよび数学的推論タスクにおける全体的なSOTA性能を達成し、既存のゼロセットモデルより優れている。
論文 参考訳(メタデータ) (2025-05-06T09:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。