論文の概要: Efficient Exploration Using Extra Safety Budget in Constrained Policy
Optimization
- arxiv url: http://arxiv.org/abs/2302.14339v1
- Date: Tue, 28 Feb 2023 06:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 17:57:44.294743
- Title: Efficient Exploration Using Extra Safety Budget in Constrained Policy
Optimization
- Title(参考訳): 制約付き政策最適化における余剰安全予算を用いた効率的な探索
- Authors: Haotian Xu and Shengjie Wang and Zhaolei Wang and Qing Zhuo and Tao
Zhang
- Abstract要約: 学習に基づくコントローラの安全性は、コントローラの有効性を保証するための重要な概念である。
本稿では, 探索と制約のバランスをとるために, ESB-CPO(Extra Safety Budget)アルゴリズムを提案する。
提案手法は,CPOアルゴリズムと比較して,同じコスト制限下での顕著な性能向上を実現している。
- 参考スコア(独自算出の注目度): 11.412848866856097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has achieved promising results on most robotic
control tasks. Safety of learning-based controllers is an essential notion of
ensuring the effectiveness of the controllers. Current methods adopt whole
consistency constraints during the training, thus resulting in inefficient
exploration in the early stage. In this paper, we propose a Constrained Policy
Optimization with Extra Safety Budget (ESB-CPO) algorithm to strike a balance
between the exploration and the constraints. In the early stage, our method
loosens the practical constraints of unsafe transitions (adding extra safety
budget) with the aid of a new metric we propose. With the training process, the
constraints in our optimization problem become tighter. Meanwhile, theoretical
analysis and practical experiments demonstrate that our method gradually meets
the cost limit's demand in the final training stage. When evaluated on
Safety-Gym and Bullet-Safety-Gym benchmarks, our method has shown its
advantages over baseline algorithms in terms of safety and optimality.
Remarkably, our method gains remarkable performance improvement under the same
cost limit compared with CPO algorithm.
- Abstract(参考訳): 強化学習(RL)は多くのロボット制御タスクにおいて有望な結果を得た。
学習に基づくコントローラの安全性は、コントローラの有効性を保証するための重要な概念である。
現在の方法は、トレーニング中に完全な一貫性の制約を採用するため、初期段階での探索が非効率になる。
本稿では,esb-cpo(extreme safety budget)アルゴリズムを用いた,探索と制約のバランスを取るための制約付きポリシー最適化を提案する。
初期段階において,本手法は,提案する新たな指標を用いて,安全でない移行(追加の安全予算)の実用的な制約を緩和する。
トレーニングプロセスでは、最適化問題の制約がより厳しくなります。
一方,理論解析と実践実験により,本手法は最終訓練段階におけるコスト限界の要求を徐々に満たしていることが示された。
Safety-Gym と Bullet-Safety-Gym のベンチマークで評価した結果,安全性と最適性の観点からベースラインアルゴリズムよりも優位性を示した。
また,提案手法は,CPOアルゴリズムと比較して,同じコスト制限下での顕著な性能向上を実現している。
関連論文リスト
- Adversarial Constrained Policy Optimization: Improving Constrained Reinforcement Learning by Adapting Budgets [6.5472155063246085]
制約付き強化学習は、報酬と制約の両方が考慮される安全クリティカルな分野において、有望な進歩を遂げてきた。
本稿では,報酬の同時最適化とトレーニング中のコスト予算の適応を可能にする適応的制約付き政策最適化(ACPO)を提案する。
論文 参考訳(メタデータ) (2024-10-28T07:04:32Z) - Balance Reward and Safety Optimization for Safe Reinforcement Learning: A Perspective of Gradient Manipulation [26.244121960815907]
探索中の報酬と安全の間のトレードオフを管理することは、大きな課題である。
本研究では,勾配操作の理論を活用することによって,この矛盾する関係に対処することを目的とする。
実験の結果,提案アルゴリズムは報酬のバランスと安全性の最適化の観点から,最先端のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-05-02T19:07:14Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。