論文の概要: Reduced Policy Optimization for Continuous Control with Hard Constraints
- arxiv url: http://arxiv.org/abs/2310.09574v2
- Date: Thu, 21 Dec 2023 14:38:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:08:37.519129
- Title: Reduced Policy Optimization for Continuous Control with Hard Constraints
- Title(参考訳): 制約付き連続制御のための緩和政策最適化
- Authors: Shutong Ding, Jingya Wang, Yali Du, Ye Shi
- Abstract要約: 我々は、RLと一般的な制約を組み合わせた新しい制約付きRLアルゴリズムを提案する。
これらのベンチマークでは、RPOは報酬と制約違反の両方の観点から、以前の制約付きRLアルゴリズムよりも優れたパフォーマンスを達成する。
RPOは、新しいベンチマークとともに、現実世界の問題に複雑な制約を適用する新たな機会を開くと信じています。
- 参考スコア(独自算出の注目度): 14.141467234397256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in constrained reinforcement learning (RL) have endowed
reinforcement learning with certain safety guarantees. However, deploying
existing constrained RL algorithms in continuous control tasks with general
hard constraints remains challenging, particularly in those situations with
non-convex hard constraints. Inspired by the generalized reduced gradient (GRG)
algorithm, a classical constrained optimization technique, we propose a reduced
policy optimization (RPO) algorithm that combines RL with GRG to address
general hard constraints. RPO partitions actions into basic actions and
nonbasic actions following the GRG method and outputs the basic actions via a
policy network. Subsequently, RPO calculates the nonbasic actions by solving
equations based on equality constraints using the obtained basic actions. The
policy network is then updated by implicitly differentiating nonbasic actions
with respect to basic actions. Additionally, we introduce an action projection
procedure based on the reduced gradient and apply a modified Lagrangian
relaxation technique to ensure inequality constraints are satisfied. To the
best of our knowledge, RPO is the first attempt that introduces GRG to RL as a
way of efficiently handling both equality and inequality hard constraints. It
is worth noting that there is currently a lack of RL environments with complex
hard constraints, which motivates us to develop three new benchmarks: two
robotics manipulation tasks and a smart grid operation control task. With these
benchmarks, RPO achieves better performance than previous constrained RL
algorithms in terms of both cumulative reward and constraint violation. We
believe RPO, along with the new benchmarks, will open up new opportunities for
applying RL to real-world problems with complex constraints.
- Abstract(参考訳): 拘束強化学習(RL)の最近の進歩は、一定の安全性を確保した強化学習を授けている。
しかし, 従来の制約付きRLアルゴリズムを, 一般的な制約付き連続制御タスクにデプロイすることは, 特に非凸制約のある状況では困難である。
従来の制約付き最適化手法である一般化還元勾配(grg)アルゴリズムに着想を得て,rlとgrgを併用して一般的な制約に対処する還元ポリシー最適化(rpo)アルゴリズムを提案する。
RPOは、アクションをGRGメソッドに従って基本アクションと非基本アクションに分割し、ポリシーネットワークを介して基本アクションを出力する。
その後、RPOは得られた基本作用を用いて等式制約に基づいて方程式を解くことによって非基本作用を計算する。
ポリシーネットワークは、基本アクションに関する非基本アクションを暗黙的に区別することで更新される。
さらに,減少勾配に基づく動作投影手順を導入し,不等式制約を満たすために修正されたラグランジュ緩和手法を適用する。
我々の知る限りでは、RPOはGRGをRLに導入する最初の試みであり、等式制約と不等式制約の両方を効率的に扱う方法である。
2つのロボティクス操作タスクとスマートグリッド操作制御タスクという、3つの新しいベンチマークを開発する動機となっている。
これらのベンチマークにより、RPOは累積報酬と制約違反の両方の観点から、従来の制約付きRLアルゴリズムよりも優れた性能を達成する。
RPOは、新しいベンチマークとともに、複雑な制約のある実世界の問題にRLを適用する新たな機会を開くだろうと考えています。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Constrained Reinforcement Learning Under Model Mismatch [18.05296241839688]
制約強化学習(RL)に関する既存の研究は、訓練環境における優れた政策を得ることができる。
しかし、実際の環境にデプロイすると、トレーニングと実際の環境の間にモデルミスマッチがあるため、トレーニング中に当初満足していた制約に容易に違反する可能性がある。
我々は,大規模かつ連続的な状態空間に適用可能な最初のアルゴリズムであるロバスト制約付きポリシー最適化(RCPO)アルゴリズムを開発し,トレーニング中の各イテレーションにおいて最悪の報酬改善と制約違反を理論的に保証する。
論文 参考訳(メタデータ) (2024-05-02T14:31:52Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Evolving Constrained Reinforcement Learning Policy [5.4444944707433525]
本稿では,報酬と制約違反とを適応的にバランスする,進化的制約付き強化学習アルゴリズムを提案する。
ロボット制御ベンチマーク実験により、ECRLは最先端のアルゴリズムと比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-04-19T03:54:31Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Reinforcement Learning With Sparse-Executing Actions via Sparsity Regularization [15.945378631406024]
強化学習(RL)は、具体的制御、自律運転、金融取引といった意思決定タスクにおいて、素晴らしいパフォーマンスを示している。
多くの意思決定タスクでは、エージェントは限られた予算の下でアクションを実行するという問題に遭遇する。
本稿では,行動空間における特定の行動が限られた時間しか実行できないスパース行動マルコフ決定プロセス(SA-MDP)としてこの問題を定式化する。
本稿では,ポリシー最適化アルゴリズムであるAction Sparsity Regularization (ASRE)を提案する。
論文 参考訳(メタデータ) (2021-05-18T16:50:42Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。