論文の概要: Constrained Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.05863v1
- Date: Thu, 05 Feb 2026 16:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.053364
- Title: Constrained Group Relative Policy Optimization
- Title(参考訳): 制約群相対的政策最適化
- Authors: Roger Girgis, Rodrigue de Schaetzen, Luke Rowe, Azalée Robitaille, Christopher Pal, Liam Paull,
- Abstract要約: 本稿では、制約付きポリシー最適化のためのラグランジアンによるGRPOの拡張であるConstrained GRPOを紹介する。
提案手法は, 最適推定における単純多成分処理が制約学習を損なう可能性があることを示す。
また,ロボットタスクにおける制約付きGRPOの評価を行い,タスク成功度を高めながら制約満足度を向上させる。
- 参考スコア(独自算出の注目度): 18.3888203751956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Group Relative Policy Optimization (GRPO) has emerged as a scalable framework for critic-free policy learning, extending it to settings with explicit behavioral constraints remains underexplored. We introduce Constrained GRPO, a Lagrangian-based extension of GRPO for constrained policy optimization. Constraints are specified via indicator cost functions, enabling direct optimization of violation rates through a Lagrangian relaxation. We show that a naive multi-component treatment in advantage estimation can break constrained learning: mismatched component-wise standard deviations distort the relative importance of the different objective terms, which in turn corrupts the Lagrangian signal and prevents meaningful constraint enforcement. We formally derive this effect to motivate our scalarized advantage construction that preserves the intended trade-off between reward and constraint terms. Experiments in a toy gridworld confirm the predicted optimization pathology and demonstrate that scalarizing advantages restores stable constraint control. In addition, we evaluate Constrained GRPO on robotics tasks, where it improves constraint satisfaction while increasing task success, establishing a simple and effective recipe for constrained policy optimization in embodied AI domains that increasingly rely on large multimodal foundation models.
- Abstract(参考訳): グループ相対的政策最適化(GRPO)は、批判のない政策学習のためのスケーラブルなフレームワークとして登場したが、明示的な行動制約のある設定まで拡張するには未定である。
本稿では、制約付きポリシー最適化のためのラグランジアンによるGRPOの拡張であるConstrained GRPOを紹介する。
制約は指標コスト関数によって指定され、ラグランジュ緩和を通じて違反率を直接最適化することができる。
コンポーネントワイド標準偏差は、異なる目的語の相対的重要性を歪め、それによってラグランジアン信号が劣化し、意味のある制約執行を防止する。
我々は、この効果を正式に導き、報酬と制約項の間のトレードオフを意図したままにしておく、スカラー化された有利な構築を動機付ける。
おもちゃのグリッドワールドにおける実験では、予測された最適化パスが確認され、スキャラライズする利点が安定した制約制御を復元することを示した。
さらに、ロボットタスクにおける制約付きGRPOを評価し、タスクの成功を増大させながら制約満足度を向上させるとともに、大規模なマルチモーダル基盤モデルに依存している具体化されたAIドメインにおいて、制約付きポリシー最適化のためのシンプルで効果的なレシピを確立する。
関連論文リスト
- Automatic Constraint Policy Optimization based on Continuous Constraint Interpolation Framework for Offline Reinforcement Learning [2.0719232729184145]
オフライン強化学習(RL)は、パフォーマンスを形作るためのポリシー制約に依存している。
既存のほとんどのメソッドは単一の制約ファミリにコミットします。
本稿では,統合最適化フレームワークであるContinuous Constraint Interpolation (CCI)を提案する。
論文 参考訳(メタデータ) (2026-01-30T14:21:41Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Proactive Constrained Policy Optimization with Preemptive Penalty [11.93135424276656]
本稿では,制約付き政策最適化のための新しいプリエンプティブ・ペナルティ・メカニズムを提案する。
このメカニズムは、ポリシーが境界に近づくと、障壁要素を目的の関数に統合し、コストを課す。
また,政策が制約境界に近づいた場合にのみ有効となる境界対応探索を誘導するために,制約対応固有の報酬を導入する。
論文 参考訳(メタデータ) (2025-08-03T18:35:55Z) - Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z) - Conflict-Averse Gradient Aggregation for Constrained Multi-Objective Reinforcement Learning [13.245000585002858]
多くの実世界の応用において、強化学習(RL)エージェントは、複数の目的を考慮し、安全ガイドラインに従うべきである。
制約付き多目的勾配集約アルゴリズム(Constrained Multi-Objective Gradient Aggregator, CoGAMO)を提案する。
論文 参考訳(メタデータ) (2024-03-01T04:57:13Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。