論文の概要: Separated Proportional-Integral Lagrangian for Chance Constrained
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.08539v1
- Date: Wed, 17 Feb 2021 02:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:44:22.170539
- Title: Separated Proportional-Integral Lagrangian for Chance Constrained
Reinforcement Learning
- Title(参考訳): チャンス制約強化学習のための分離プロポーショナル・Integral Lagrangian
- Authors: Baiyu Peng, Yao Mu, Jingliang Duan, Yang Guan, Shengbo Eben Li, Jianyu
Chen
- Abstract要約: 安全は、自動運転のような現実世界のタスクに適用される強化学習に不可欠です。
高い確率で状態制約の満足度を保証する機会制約は、要求を表すのに適しています。
既存の確率制約付きRL法(ペナルティ法やラグランジアン法)は周期振動を示すか、あるいは制約を満たすことができない。
- 参考スコア(独自算出の注目度): 6.600423613245076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety is essential for reinforcement learning (RL) applied in real-world
tasks like autonomous driving. Chance constraints which guarantee the
satisfaction of state constraints at a high probability are suitable to
represent the requirements in real-world environment with uncertainty. Existing
chance constrained RL methods like the penalty method and the Lagrangian method
either exhibit periodic oscillations or cannot satisfy the constraints. In this
paper, we address these shortcomings by proposing a separated
proportional-integral Lagrangian (SPIL) algorithm. Taking a control
perspective, we first interpret the penalty method and the Lagrangian method as
proportional feedback and integral feedback control, respectively. Then, a
proportional-integral Lagrangian method is proposed to steady learning process
while improving safety. To prevent integral overshooting and reduce
conservatism, we introduce the integral separation technique inspired by PID
control. Finally, an analytical gradient of the chance constraint is utilized
for model-based policy optimization. The effectiveness of SPIL is demonstrated
by a narrow car-following task. Experiments indicate that compared with
previous methods, SPIL improves the performance while guaranteeing safety, with
a steady learning process.
- Abstract(参考訳): 安全は、自動運転のような現実世界のタスクに適用される強化学習(RL)に不可欠です。
状態制約の満足度を高い確率で保証する条件制約は、不確実性のある現実環境における要件を表現するのに適している。
既存の確率制約付きRL法(ペナルティ法やラグランジアン法)は周期振動を示すか、あるいは制約を満たすことができない。
本稿では,分離比例積分ラグランジアン(spil)アルゴリズムを提案することで,これらの欠点を解決する。
制御の観点から,まずペナルティ法とラグランジアン法を比例フィードバックと積分フィードバック制御として解釈する。
次に,安全を向上しながら安定した学習プロセスを実現する比例積分ラグランジアン法を提案する。
積分オーバーシュートを防止し,保守性を低下させるために,PID制御にインスパイアされた積分分離技術を導入する。
最後に、確率制約の分析勾配をモデルに基づくポリシー最適化に活用する。
SPILの有効性は狭い車追従作業によって実証される。
実験の結果、SPILは従来の手法と比較して、安定した学習プロセスで安全性を確保しながら性能を向上させることが示された。
関連論文リスト
- Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Model-based Chance-Constrained Reinforcement Learning via Separated
Proportional-Integral Lagrangian [5.686699342802045]
本研究では、不確実性の下でRL安全性を高めるために、分離された比例積分ラグランジアンアルゴリズムを提案する。
本稿では,自動車追従シミュレーションにおいて,RLポリシーの振動と保守性を低減できることを示す。
論文 参考訳(メタデータ) (2021-08-26T07:34:14Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Model-based Safe Reinforcement Learning using Generalized Control
Barrier Function [6.556257209888797]
本稿では,制約付きRLのモデルに基づく実現性向上手法を提案する。
モデル情報を使用することで、実際の安全制約に違反することなく、ポリシーを安全に最適化することができる。
提案手法は最大4倍の制約違反を達成し、ベースライン制約RLアプローチよりも3.36倍の速度で収束する。
論文 参考訳(メタデータ) (2021-03-02T08:17:38Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。