論文の概要: Group Policy Gradient
- arxiv url: http://arxiv.org/abs/2510.03679v1
- Date: Sat, 04 Oct 2025 05:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.189535
- Title: Group Policy Gradient
- Title(参考訳): グループ政策のグラディエント
- Authors: Junhua Chen, Zixi Zhang, Hantao Zhong, Rika Antonova,
- Abstract要約: グループ・ポリシー・グラディエント(GPG、Group Policy Gradient、グループ・ポリシー・グラディエント・グラディエント、GPG)は、一般のMDPを対象とした、批判のない政策段階の予測指標である。
GPG は標準ベンチマークで PPO と一致し, 性能が優れていることを示す。
- 参考スコア(独自算出の注目度): 4.1768453238321515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Group Policy Gradient (GPG), a family of critic-free policy-gradient estimators for general MDPs. Inspired by the success of GRPO's approach in Reinforcement Learning from Human Feedback (RLHF), GPG replaces a learned value function with a group-based Monte Carlo advantage estimator, removing the memory, compute, and hyperparameter costs of training a critic while preserving PPO's clipped-objective structure. We prove the consistency of the GPG estimator, analyze the bias-variance tradeoffs, and demonstrate empirically that GPG matches or outperforms PPO on standard benchmarks. GPG makes better use of parallel simulations, which, together with its critic-free design, results in more efficient use of computational resources than PPO.
- Abstract(参考訳): 我々は、一般のMDPに対する批判のない政策段階的推定器のファミリーであるグループポリシーグラディエント(GPG)を紹介する。
RLHF(Reinforcement Learning from Human Feedback)におけるGRPOのアプローチの成功にインスパイアされたGPGは、学習値関数をグループベースのモンテカルロ優位推定器に置き換え、PPOのクリップされた対象構造を維持しながら、批評家を訓練する際のメモリ、計算、ハイパーパラメータコストを取り除く。
我々は,GPG推定器の整合性を証明し,バイアス分散トレードオフを解析し,GPGが標準ベンチマークでPPOに適合または優れることを示す。
GPGは並列シミュレーションをよりよく利用し、批判のない設計とともに、計算資源をPPOよりも効率的に利用することができる。
関連論文リスト
- Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。
GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文 参考訳(メタデータ) (2025-10-01T16:05:53Z) - On the Theory and Practice of GRPO: A Trajectory-Corrected Approach with Fast Convergence [2.8165669455824696]
Group Relative Policy Optimizationは、批判のない強化学習アルゴリズムである。
GRPO更新規則は,現行の方針よりも旧方針の政策勾配を推定する。
軌道レベルの重要度補正 GRPO という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:01:19Z) - Geometric-Mean Policy Optimization [117.05113769757172]
グループ相対政策最適化(GRPO)は,大規模言語モデルの推論能力を大幅に向上させた。
GRPOは、不利な重要度重み付けされた報酬を持つトークンに直面すると、不安定なポリシー更新に悩まされる。
本稿では,GRPOの安定性を向上させるために,トークン報酬の出力を抑えることにより,GMPO(Geometric-Mean Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-07-28T09:54:05Z) - Revisiting Group Relative Policy Optimization: Insights into On-Policy and Off-Policy Training [19.783852824564736]
我々は、政治と政治の双方の最適化体制において、グループ相対政策最適化(GRPO)を再考する。
我々は、政治と政治以外のGRPO目標の両方が報酬の改善をもたらすことを示す。
次に,2つのGRPO変種を用いた後学習における強化学習の実証的性能と検証可能な報酬とを比較した。
論文 参考訳(メタデータ) (2025-05-28T11:42:33Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Incremental Ensemble Gaussian Processes [53.3291389385672]
本稿では,EGPメタラーナーがGP学習者のインクリメンタルアンサンブル(IE-) GPフレームワークを提案し,それぞれが所定のカーネル辞書に属するユニークなカーネルを持つ。
各GP専門家は、ランダムな特徴ベースの近似を利用してオンライン予測とモデル更新を行い、そのスケーラビリティを生かし、EGPメタラーナーはデータ適応重みを生かし、熟練者ごとの予測を合成する。
新たなIE-GPは、EGPメタラーナーおよび各GP学習者内における構造化力学をモデル化することにより、時間変化関数に対応するように一般化される。
論文 参考訳(メタデータ) (2021-10-13T15:11:25Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。