論文の概要: FISAR: Forward Invariant Safe Reinforcement Learning with a Deep Neural
Network-Based Optimize
- arxiv url: http://arxiv.org/abs/2006.11419v4
- Date: Wed, 5 May 2021 23:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 03:22:13.667955
- Title: FISAR: Forward Invariant Safe Reinforcement Learning with a Deep Neural
Network-Based Optimize
- Title(参考訳): FISAR:ディープニューラルネットワークに基づく最適化による前向き不変な安全強化学習
- Authors: Chuangchuang Sun, Dong-Ki Kim, Jonathan P. How
- Abstract要約: Lyapunov関数として制約を取り、ポリシーパラメータの更新ダイナミクスに新たな線形制約を課す。
新しい保証可能な制約が元のポリシーパラメータの代わりに動的に更新されるため、古典的な最適化アルゴリズムはもはや適用されない。
- 参考スコア(独自算出の注目度): 44.65622657676026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates reinforcement learning with constraints, which are
indispensable in safety-critical environments. To drive the constraint
violation monotonically decrease, we take the constraints as Lyapunov functions
and impose new linear constraints on the policy parameters' updating dynamics.
As a result, the original safety set can be forward-invariant. However, because
the new guaranteed-feasible constraints are imposed on the updating dynamics
instead of the original policy parameters, classic optimization algorithms are
no longer applicable. To address this, we propose to learn a generic deep
neural network (DNN)-based optimizer to optimize the objective while satisfying
the linear constraints. The constraint-satisfaction is achieved via projection
onto a polytope formulated by multiple linear inequality constraints, which can
be solved analytically with our newly designed metric. To the best of our
knowledge, this is the \textit{first} DNN-based optimizer for constrained
optimization with the forward invariance guarantee. We show that our optimizer
trains a policy to decrease the constraint violation and maximize the
cumulative reward monotonically. Results on numerical constrained optimization
and obstacle-avoidance navigation validate the theoretical findings.
- Abstract(参考訳): 本稿では,安全クリティカル環境における制約付き強化学習について検討する。
制約違反を単調に減少させるため、リャプノフ関数として制約を考慮し、ポリシーパラメータの更新ダイナミクスに新たな線形制約を課す。
結果として、元の安全集合は前方不変である。
しかし、新しい保証可能な制約が元のポリシーパラメータの代わりに更新ダイナミクスに課されるため、古典最適化アルゴリズムはもはや適用されない。
そこで我々は,線形制約を満たすことなく目的を最適化するために,汎用ディープニューラルネットワーク(DNN)に基づく最適化学習を提案する。
制約満足度は複数の線形不等式制約で定式化されたポリトープへの射影によって達成される。
我々の知る限りでは、これは前方不変性を保証する制約付き最適化のためのtextit{first} DNNベースのオプティマイザである。
当社のオプティマイザは制約違反を減らし,累積報酬を単調に最大化するためのポリシーをトレーニングしている。
数値制約最適化と障害物回避ナビゲーションによる理論的結果の検証
関連論文リスト
- Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - A Surrogate Objective Framework for Prediction+Optimization with Soft
Constraints [29.962390392493507]
SPO+や直接最適化のような決定に焦点をあてた予測手法が、このギャップを埋めるために提案されている。
本稿では,実世界の線形および半定値負の二次計画問題に対して,解析的に微分可能な主観的フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-22T17:09:57Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Nonconvex sparse regularization for deep neural networks and its
optimality [1.9798034349981162]
ディープニューラルネットワーク(DNN)推定器は、回帰と分類問題に対して最適な収束率を得ることができる。
スパースDNNに対する新たなペナル化推定法を提案する。
スパースペンタライズされた推定器は、様々な非パラメトリック回帰問題に対する最小収束率を適応的に達成できることを示す。
論文 参考訳(メタデータ) (2020-03-26T07:15:28Z) - Neural Networks for Encoding Dynamic Security-Constrained Optimal Power
Flow [0.0]
本稿では,それまでの難解な最適化制約を捕捉し,それらを混合整数線形プログラムに変換するフレームワークを提案する。
我々は,N-1セキュリティと小信号安定性を考慮した電力系統運用へのアプローチを実証し,コスト最適解を効率的に得る方法を示した。
論文 参考訳(メタデータ) (2020-03-17T21:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。