論文の概要: Responsive Safety in Reinforcement Learning by PID Lagrangian Methods
- arxiv url: http://arxiv.org/abs/2007.03964v1
- Date: Wed, 8 Jul 2020 08:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 12:49:00.733047
- Title: Responsive Safety in Reinforcement Learning by PID Lagrangian Methods
- Title(参考訳): PIDラグランジアン法による強化学習における応答安全
- Authors: Adam Stooke, Joshua Achiam, and Pieter Abbeel
- Abstract要約: ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
- 参考スコア(独自算出の注目度): 74.49173841304474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lagrangian methods are widely used algorithms for constrained optimization
problems, but their learning dynamics exhibit oscillations and overshoot which,
when applied to safe reinforcement learning, leads to constraint-violating
behavior during agent training. We address this shortcoming by proposing a
novel Lagrange multiplier update method that utilizes derivatives of the
constraint function. We take a controls perspective, wherein the traditional
Lagrange multiplier update behaves as \emph{integral} control; our terms
introduce \emph{proportional} and \emph{derivative} control, achieving
favorable learning dynamics through damping and predictive measures. We apply
our PID Lagrangian methods in deep RL, setting a new state of the art in Safety
Gym, a safe RL benchmark. Lastly, we introduce a new method to ease controller
tuning by providing invariance to the relative numerical scales of reward and
cost. Our extensive experiments demonstrate improved performance and
hyperparameter robustness, while our algorithms remain nearly as simple to
derive and implement as the traditional Lagrangian approach.
- Abstract(参考訳): ラグランジアン法は制約付き最適化問題のアルゴリズムとして広く用いられているが、その学習力学は振動やオーバーシュートを示し、安全強化学習に適用するとエージェントトレーニング中に制約違反行動を引き起こす。
本稿では,制約関数の微分を利用した新しいラグランジュ乗算器更新法を提案する。
我々は、従来のラグランジュ乗算器更新が \emph{integral} 制御として振る舞う制御の観点を採り、我々の用語は \emph{proportional} と \emph{derivative} 制御を導入し、減衰と予測手段によって良好な学習ダイナミクスを達成する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
最後に,報奨とコストの相対的な数値スケールに対する不変性を提供することにより,コントローラのチューニングを容易にする新しい手法を提案する。
我々のアルゴリズムは従来のラグランジアンアプローチと同様に、導出と実装がほとんど簡単であり、性能とハイパーパラメータの堅牢性が改善された。
関連論文リスト
- On PI Controllers for Updating Lagrange Multipliers in Constrained Optimization [16.40968330148623]
本稿では、$nu$PIアルゴリズムを提案し、PIコントローラに基づくラグランジュ乗算器更新の最適化に寄与する。
本研究では,勾配降下勾配の欠点に対処する運動量法が不可能であることを示す理論的,実証的な知見を提供する。
我々は、$nu$PIが単目的最小化の一般的な運動量法を一般化することを証明した。
論文 参考訳(メタデータ) (2024-06-07T00:13:31Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Model-based Chance-Constrained Reinforcement Learning via Separated
Proportional-Integral Lagrangian [5.686699342802045]
本研究では、不確実性の下でRL安全性を高めるために、分離された比例積分ラグランジアンアルゴリズムを提案する。
本稿では,自動車追従シミュレーションにおいて,RLポリシーの振動と保守性を低減できることを示す。
論文 参考訳(メタデータ) (2021-08-26T07:34:14Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Separated Proportional-Integral Lagrangian for Chance Constrained
Reinforcement Learning [6.600423613245076]
安全は、自動運転のような現実世界のタスクに適用される強化学習に不可欠です。
高い確率で状態制約の満足度を保証する機会制約は、要求を表すのに適しています。
既存の確率制約付きRL法(ペナルティ法やラグランジアン法)は周期振動を示すか、あるいは制約を満たすことができない。
論文 参考訳(メタデータ) (2021-02-17T02:40:01Z) - Constrained Model-based Reinforcement Learning with Robust Cross-Entropy
Method [30.407700996710023]
本稿では,制約違反に対するスパースインジケータ信号を用いた制約/安全強化学習問題について検討する。
本稿では,ニューラルネットワークアンサンブルモデルを用いて予測の不確実性を推定し,モデル予測制御を基本制御フレームワークとして利用する。
その結果,本手法は現状のベースラインよりもはるかに少ない制約違反数でタスクを完了させることが判明した。
論文 参考訳(メタデータ) (2020-10-15T18:19:35Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。