Fugu-MT 論文翻訳(概要): Efficient Exploration Using Extra Safety Budget in Constrained Policy Optimization

論文の概要: Efficient Exploration Using Extra Safety Budget in Constrained Policy Optimization

arxiv url: http://arxiv.org/abs/2302.14339v1
Date: Tue, 28 Feb 2023 06:16:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-01 17:57:44.294743
Title: Efficient Exploration Using Extra Safety Budget in Constrained Policy Optimization
Title（参考訳）: 制約付き政策最適化における余剰安全予算を用いた効率的な探索
Authors: Haotian Xu and Shengjie Wang and Zhaolei Wang and Qing Zhuo and Tao Zhang
Abstract要約: 学習に基づくコントローラの安全性は、コントローラの有効性を保証するための重要な概念である。本稿では, 探索と制約のバランスをとるために, ESB-CPO(Extra Safety Budget)アルゴリズムを提案する。提案手法は,CPOアルゴリズムと比較して,同じコスト制限下での顕著な性能向上を実現している。
参考スコア（独自算出の注目度）: 11.412848866856097
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) has achieved promising results on most robotic control tasks. Safety of learning-based controllers is an essential notion of ensuring the effectiveness of the controllers. Current methods adopt whole consistency constraints during the training, thus resulting in inefficient exploration in the early stage. In this paper, we propose a Constrained Policy Optimization with Extra Safety Budget (ESB-CPO) algorithm to strike a balance between the exploration and the constraints. In the early stage, our method loosens the practical constraints of unsafe transitions (adding extra safety budget) with the aid of a new metric we propose. With the training process, the constraints in our optimization problem become tighter. Meanwhile, theoretical analysis and practical experiments demonstrate that our method gradually meets the cost limit's demand in the final training stage. When evaluated on Safety-Gym and Bullet-Safety-Gym benchmarks, our method has shown its advantages over baseline algorithms in terms of safety and optimality. Remarkably, our method gains remarkable performance improvement under the same cost limit compared with CPO algorithm.
Abstract（参考訳）: 強化学習(RL)は多くのロボット制御タスクにおいて有望な結果を得た。学習に基づくコントローラの安全性は、コントローラの有効性を保証するための重要な概念である。現在の方法は、トレーニング中に完全な一貫性の制約を採用するため、初期段階での探索が非効率になる。本稿では,esb-cpo(extreme safety budget)アルゴリズムを用いた,探索と制約のバランスを取るための制約付きポリシー最適化を提案する。初期段階において,本手法は,提案する新たな指標を用いて,安全でない移行(追加の安全予算)の実用的な制約を緩和する。トレーニングプロセスでは、最適化問題の制約がより厳しくなります。一方,理論解析と実践実験により,本手法は最終訓練段階におけるコスト限界の要求を徐々に満たしていることが示された。 Safety-Gym と Bullet-Safety-Gym のベンチマークで評価した結果,安全性と最適性の観点からベースラインアルゴリズムよりも優位性を示した。また,提案手法は,CPOアルゴリズムと比較して,同じコスト制限下での顕著な性能向上を実現している。

関連論文リスト

Incentivizing Safer Actions in Policy Optimization for Constrained Reinforcement Learning [9.62939764063531]
制約強化学習(Constrained Reinforcement Learning)は、事前定義された制約制約に固執しながら、リターンを最大化することを目的としている。継続的なコントロール設定では、報酬と制約満足度のトレードオフは依然として大きな課題です。我々は、報酬構造に加えて、適応的なインセンティブ機構を統合する新しいアプローチを導入し、制約境界内に留まる。
論文参考訳（メタデータ） (2025-09-11T07:33:35Z)
Adversarial Constrained Policy Optimization: Improving Constrained Reinforcement Learning by Adapting Budgets [6.5472155063246085]
制約付き強化学習は、報酬と制約の両方が考慮される安全クリティカルな分野において、有望な進歩を遂げてきた。本稿では,報酬の同時最適化とトレーニング中のコスト予算の適応を可能にする適応的制約付き政策最適化(ACPO)を提案する。
論文参考訳（メタデータ） (2024-10-28T07:04:32Z)
Balance Reward and Safety Optimization for Safe Reinforcement Learning: A Perspective of Gradient Manipulation [26.244121960815907]
探索中の報酬と安全の間のトレードオフを管理することは、大きな課題である。本研究では,勾配操作の理論を活用することによって,この矛盾する関係に対処することを目的とする。実験の結果,提案アルゴリズムは報酬のバランスと安全性の最適化の観点から,最先端のベースラインよりも優れていた。
論文参考訳（メタデータ） (2024-05-02T19:07:14Z)
SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文参考訳（メタデータ） (2023-11-01T22:12:50Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。 P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。 P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2022-05-24T06:15:51Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-11-16T13:16:22Z)
Chance-Constrained Trajectory Optimization for Safe Exploration and Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-05-09T05:57:43Z)
Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文参考訳（メタデータ） (2020-02-26T00:01:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。