論文の概要: Model-based Chance-Constrained Reinforcement Learning via Separated
Proportional-Integral Lagrangian
- arxiv url: http://arxiv.org/abs/2108.11623v1
- Date: Thu, 26 Aug 2021 07:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-08-27 22:42:28.523208
- Title: Model-based Chance-Constrained Reinforcement Learning via Separated
Proportional-Integral Lagrangian
- Title(参考訳): 局所内接ラグランジアンによるモデルベースチャンス制約強化学習
- Authors: Baiyu Peng, Jingliang Duan, Jianyu Chen, Shengbo Eben Li, Genjin Xie,
Congsheng Zhang, Yang Guan, Yao Mu, Enxin Sun
- Abstract要約: 本研究では、不確実性の下でRL安全性を高めるために、分離された比例積分ラグランジアンアルゴリズムを提案する。
本稿では,自動車追従シミュレーションにおいて,RLポリシーの振動と保守性を低減できることを示す。
- 参考スコア(独自算出の注目度): 5.686699342802045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety is essential for reinforcement learning (RL) applied in the real
world. Adding chance constraints (or probabilistic constraints) is a suitable
way to enhance RL safety under uncertainty. Existing chance-constrained RL
methods like the penalty methods and the Lagrangian methods either exhibit
periodic oscillations or learn an over-conservative or unsafe policy. In this
paper, we address these shortcomings by proposing a separated
proportional-integral Lagrangian (SPIL) algorithm. We first review the
constrained policy optimization process from a feedback control perspective,
which regards the penalty weight as the control input and the safe probability
as the control output. Based on this, the penalty method is formulated as a
proportional controller, and the Lagrangian method is formulated as an integral
controller. We then unify them and present a proportional-integral Lagrangian
method to get both their merits, with an integral separation technique to limit
the integral value in a reasonable range. To accelerate training, the gradient
of safe probability is computed in a model-based manner. We demonstrate our
method can reduce the oscillations and conservatism of RL policy in a
car-following simulation. To prove its practicality, we also apply our method
to a real-world mobile robot navigation task, where our robot successfully
avoids a moving obstacle with highly uncertain or even aggressive behaviors.
- Abstract(参考訳): 安全性は現実世界に適用される強化学習(rl)に不可欠である。
確率制約(確率的制約)を加えることは不確実性の下でRLの安全性を高めるのに適した方法である。
ペナルティ法やラグランジアン法のような既存の確率制約付きrl法は周期的振動を示すか、保存的または安全でないポリシーを学ぶ。
本稿では,分離された比例積分ラグランジアン(SPIL)アルゴリズムを提案する。
まず,ペナルティ重みを制御入力とし,安全な確率を制御出力とするフィードバック制御の観点から,制約付きポリシー最適化プロセスをレビューする。
これにより、ペナルティ法を比例制御器として定式化し、ラグランジアン法を積分制御器として定式化する。
次に,これらを統一し,両者の利点を得るための比例積分ラグランジアン法と,積分値を妥当な範囲で制限する積分分離法を提案する。
トレーニングを加速するために、安全な確率の勾配をモデルベースで計算する。
本手法は,車追従シミュレーションにおいてrlポリシーの振動と保守性を低減できることを実証する。
その実用性を証明するために,本手法を実世界の移動ロボットナビゲーションタスクに適用する。
関連論文リスト
- A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning [7.138691584246846]
本稿では,安全指向エネルギー関数を用いてポリシー更新を限定するセーフセットアクタクリティカル(SSAC)アルゴリズムを提案する。
安全指数は、潜在的に危険な行動のために急速に増加するように設計されている。
我々は、値関数の学習と同様に、モデルのない方法でエネルギー関数を学習できると主張する。
論文 参考訳(メタデータ) (2021-11-25T07:24:30Z) - Model-based Safe Reinforcement Learning using Generalized Control
Barrier Function [6.556257209888797]
本稿では,制約付きRLのモデルに基づく実現性向上手法を提案する。
モデル情報を使用することで、実際の安全制約に違反することなく、ポリシーを安全に最適化することができる。
提案手法は最大4倍の制約違反を達成し、ベースライン制約RLアプローチよりも3.36倍の速度で収束する。
論文 参考訳(メタデータ) (2021-03-02T08:17:38Z) - Separated Proportional-Integral Lagrangian for Chance Constrained
Reinforcement Learning [6.600423613245076]
安全は、自動運転のような現実世界のタスクに適用される強化学習に不可欠です。
高い確率で状態制約の満足度を保証する機会制約は、要求を表すのに適しています。
既存の確率制約付きRL法(ペナルティ法やラグランジアン法)は周期振動を示すか、あるいは制約を満たすことができない。
論文 参考訳(メタデータ) (2021-02-17T02:40:01Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。