論文の概要: Learning Without Critics? Revisiting GRPO in Classical Reinforcement Learning Environments
- arxiv url: http://arxiv.org/abs/2511.03527v1
- Date: Wed, 05 Nov 2025 15:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.452474
- Title: Learning Without Critics? Revisiting GRPO in Classical Reinforcement Learning Environments
- Title(参考訳): 批判のない学習 : 古典的強化学習環境におけるGRPOの再考
- Authors: Bryan L. M. de Oliveira, Felipe V. Frujeri, Marcos P. C. M. Queiroz, Luana G. B. Martins, Telma W. de L. Soares, Luckeciano C. Melo,
- Abstract要約: グループ相対政策最適化(GRPO)は、PPO(Proximal Policy Optimization)に代わるスケーラブルな代替手段として登場した。
本稿では,従来の単一タスク強化学習環境におけるGRPOの体系的研究について述べる。
- 参考スコア(独自算出の注目度): 1.9559952759908155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group Relative Policy Optimization (GRPO) has emerged as a scalable alternative to Proximal Policy Optimization (PPO) by eliminating the learned critic and instead estimating advantages through group-relative comparisons of trajectories. This simplification raises fundamental questions about the necessity of learned baselines in policy-gradient methods. We present the first systematic study of GRPO in classical single-task reinforcement learning environments, spanning discrete and continuous control tasks. Through controlled ablations isolating baselines, discounting, and group sampling, we reveal three key findings: (1) learned critics remain essential for long-horizon tasks: all critic-free baselines underperform PPO except in short-horizon environments like CartPole where episodic returns can be effective; (2) GRPO benefits from high discount factors (gamma = 0.99) except in HalfCheetah, where lack of early termination favors moderate discounting (gamma = 0.9); (3) smaller group sizes outperform larger ones, suggesting limitations in batch-based grouping strategies that mix unrelated episodes. These results reveal both the limitations of critic-free methods in classical control and the specific conditions where they remain viable alternatives to learned value functions.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、学習した批判を排除し、軌道の群相対比較を通じて利点を推定することで、PPO(Pximal Policy Optimization)に代わるスケーラブルな代替手段として登場した。
この単純化は、政策段階の手法における学習ベースラインの必要性に関する根本的な疑問を提起する。
本稿では,従来の単一タスク強化学習環境におけるGRPOの最初の体系的研究について述べる。
1)批判のない全ての基準線は、エピソードリターンが有効であるCartPoleのような短地環境を除いてPPOを下方修正する。(2) 早期終了の欠如が適度な割引(ガンマ=0.9)を好むハーフチータを除いて高い割引因子(ガンマ=0.99)によるGRPOの恩恵は、無関係なエピソードを混在させるバッチベースのグループ化戦略の限界を示唆する。
これらの結果は、古典的な制御における批判のない手法の限界と、学習された値関数の代替となるような特定の条件の両方を明らかにしている。
関連論文リスト
- Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning [49.57517969069136]
Asymmetric Proximal Policy Optimization (AsyPPO) は、大規模なモデル設定で効率を保ちながら、批評家の役割を回復するシンプルでスケーラブルなフレームワークである。
AsyPPOは軽量のミニ批評家を採用しており、それぞれが切り離されたプロンプトシャードで訓練されている。
強力なベースラインを越えて、複数のベンチマークで学習の安定性とパフォーマンスを継続的に改善する。
論文 参考訳(メタデータ) (2025-10-02T04:24:27Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO [22.00487909203855]
グループ相対ポリシー最適化は、グループ内のすべてのレスポンスが正しくない場合にポリシーを更新できない。
この制限は、人工知能と人間の知性の間に重要なギャップを浮き彫りにする。
グループ内に応答の多様性を取り入れることで、全負のサンプル問題を緩和するシンプルなフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Adaptive Group Policy Optimization: Towards Stable Training and Token-Efficient Reasoning [6.417080496525403]
本稿では,適応的グループポリシー最適化(AGPO)を提案する。これは,適応的損失関数(adaptive loss function)を用いて,トレーニングのゆらぎとトークンの非効率を緩和する。
実験により,提案手法は推論ステップにおけるトークンを著しく少なくして,より安定した訓練と優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-20T08:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。