論文の概要: GRLO: Towards Generalizable Reinforcement Learning in Open-Ended Environments from Zero
- arxiv url: http://arxiv.org/abs/2605.15464v1
- Date: Thu, 14 May 2026 23:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.121609
- Title: GRLO: Towards Generalizable Reinforcement Learning in Open-Ended Environments from Zero
- Title(参考訳): GRLO:ゼロから開放された環境における一般化可能な強化学習を目指して
- Authors: Shangjian Yin, Yu Fu, Yue Dong, Zhouxing Shi,
- Abstract要約: ポストトレーニングは、大きな言語モデルの能力をアンロックするための重要なステップになっている。
オープンエンド環境における小さな相互作用の集合からスクラッチから学習したRLHFの一般化能力について検討した。
提案手法は,数学的推論やコード生成といった下流タスクに暗黙的に移行できるかどうかを考察する。
- 参考スコア(独自算出の注目度): 15.236247092411164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training has become a crucial step for unlocking the capabilities of large language models, with reinforcement learning (RL) emerging as a critical paradigm. Recent RL-based post-training has increasingly split into two paradigms: reinforcement learning from human feedback (RLHF), which optimizes models using human preference signals in target domains, and reinforcement learning from verifiable rewards (RLVR), which operates in verifier-backed environments. The latter has dominated recent reasoning-oriented post-training because it delivers stronger gains and higher efficiency on domain-specific tasks (e.g., reasoning). However, although in-domain RL training achieves promising performance, it still requires a substantial amount of GPU compute, which remains a major barrier to broad adoption. In this work, we study the generalization ability of RLHF learned from scratch from a small set of interactions in open-ended environments, and investigate whether the conversational abilities it explicitly acquires can implicitly transfer to downstream tasks such as mathematical reasoning and code generation, namely GRLO. Specifically, on Qwen3-4B-Base backbone, GRLO improves the average performance across all domains from 24.1 to 63.1 with only 5K prompts and 22.7 GPU hours, requiring about $46\times$ less data and $68\times$ less compute than a strong in-domain RLVR baseline. The resulting model is even competitive with Qwen's released post-trained models which required a much larger training cost. Notably, a subsequent in-domain RLVR stage brings only selective gains, mainly on harder competition-math benchmarks. We hope GRLO offers a simple and efficient recipe for building broadly capable post-trained models. Our code and data will be available at: \href{https://github.com/SJY8460/GRLO}{https://github.com/SJY8460/GRLO}.
- Abstract(参考訳): ポストトレーニングは、大規模な言語モデルの能力を解放するための重要なステップとなり、強化学習(RL)が重要なパラダイムとして登場した。
近年、RLベースのポストトレーニングは、人間からのフィードバックによる強化学習(RLHF)と、検証済みの環境で動作する検証可能な報酬からの強化学習(RLVR)の2つのパラダイムに分かれている。
後者は、ドメイン固有のタスク(例えば、推論)において、より強力な利得と高い効率をもたらすため、最近の推論指向のポストトレーニングを支配している。
しかし、ドメイン内RLトレーニングは有望なパフォーマンスを達成するが、それでも相当量のGPU計算を必要とするため、広く採用するには依然として大きな障壁である。
本研究では,オープンエンド環境における小さな相互作用から学習したRLHFの一般化能力について検討し,数学的推論やコード生成などの下流タスク,すなわちGRLOに暗黙的に伝達できる会話能力について検討する。
具体的には、Qwen3-4B-Baseのバックボーンでは、GRLOは24.1から63.1までの全てのドメインの平均性能を5Kプロンプトと22.7GPU時間で改善している。
結果として得られたモデルは、Qwenがリリースしたトレーニング後のモデルと競合する。
特に、その後のドメイン内RLVRステージは、主に厳しい競合質量ベンチマークに基づいて、選択的なゲインしか得られない。
GRLOは、幅広い能力を持つポストトレーニングモデルを構築するためのシンプルで効率的なレシピを提供してくれることを願っています。
コードとデータは以下の通りである。 \href{https://github.com/SJY8460/GRLO}{https://github.com/SJY8460/GRLO}。
関連論文リスト
- Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。
私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文 参考訳(メタデータ) (2025-12-15T18:02:35Z) - DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation [5.496363733566038]
我々は、RLVR(すなわち、RLプロンプト)を構築し、競争プログラミングコード生成に強力なパフォーマンスをもたらすトレーニング技術を示す。
本手法はQwen2.5-32B上で実装され,LeetCodeとCodeforcesの毎週のコンテストでデータ漏洩を回避する。
結果として得られたモデルは、同様のスケールのモデル間で最先端のパフォーマンスを実現し、DeepSeek v3.1 や Doubao-1.5-Thinking のような主要なシステムに匹敵する。
論文 参考訳(メタデータ) (2025-11-09T10:11:28Z) - From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning? [76.288870982181]
タンパク質言語モデル(PLM)は、大規模事前学習と拡張性のあるアーキテクチャを通じて高度な計算タンパク質科学を持つ。
強化学習(RL)は探索を拡大し、タンパク質設計における正確な多目的最適化を可能にした。
RLはサンプリング効率を向上し,さらに重要な点として,教師あり学習で捉えない能力を明らかにするかどうかを問う。
論文 参考訳(メタデータ) (2025-10-02T01:31:10Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Reinforcement Learning with Rubric Anchors [26.9944158097067]
RLVR(Reinforcement Learning from Verifiable Rewards)は、大規模言語モデル(LLM)の強化のための強力なパラダイムとして登場した。
我々はRLVRパラダイムを、ルーブリックベースの報酬を統合することで、オープンエンドタスクに拡張する。
私たちは、これまでで最大のルーリック報酬システムを構築しており、人間やLLM、ハイブリッドな人間とLLMのコラボレーションから1万以上のルーリックを集めています。
論文 参考訳(メタデータ) (2025-08-18T10:06:08Z) - Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective [82.24301452333577]
強化学習(RL)は,大規模言語モデル(LLM)推論を改善するための有望なアプローチとして登場した。
重要な課題は、様々な推論領域にまたがる信頼性とスケーラブルなRL報酬信号の欠如である。
我々は,6つの推論領域にまたがる92Kの検証可能な例をキュレートしたRL推論コーパスであるGuruを紹介する。
論文 参考訳(メタデータ) (2025-06-17T20:24:00Z) - Maximizing Confidence Alone Improves Reasoning [48.83927980325788]
RENT: エントロピー最小化による強化学習(Reinforcement Learning via Entropy Minimization)は、完全な教師なしのRL手法であり、外部の報酬や地道的な回答を必要としない。
得られた回答に高いモデル信頼をもたらす思考の連鎖を強化することで、モデルは推論能力を向上させる。
論文 参考訳(メタデータ) (2025-05-28T17:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。