論文の概要: Safety and Liveness Guarantees through Reach-Avoid Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2112.12288v1
- Date: Thu, 23 Dec 2021 00:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-25 02:40:50.321017
- Title: Safety and Liveness Guarantees through Reach-Avoid Reinforcement
Learning
- Title(参考訳): reach-avoid reinforcement learningによる安全と生活保証
- Authors: Kai-Chieh Hsu, Vicen\c{c} Rubies-Royo, Claire J. Tomlin, Jaime F.
Fisac
- Abstract要約: リーチ・アビド最適制御問題は、自律ロボットシステムの安全性と生存性保証の中心である。
性能目標を用いた最適制御問題を概ね解くための強化学習手法の最近の成功は、その認証問題への適用を魅力的にしている。
最近の研究は、安全型問題を扱うための強化学習機械の拡張を約束しており、その目的は和ではなく、時間とともに最小限(または最大)である。
- 参考スコア(独自算出の注目度): 24.56889192688925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reach-avoid optimal control problems, in which the system must reach certain
goal conditions while staying clear of unacceptable failure modes, are central
to safety and liveness assurance for autonomous robotic systems, but their
exact solutions are intractable for complex dynamics and environments. Recent
successes in reinforcement learning methods to approximately solve optimal
control problems with performance objectives make their application to
certification problems attractive; however, the Lagrange-type objective used in
reinforcement learning is not suitable to encode temporal logic requirements.
Recent work has shown promise in extending the reinforcement learning machinery
to safety-type problems, whose objective is not a sum, but a minimum (or
maximum) over time. In this work, we generalize the reinforcement learning
formulation to handle all optimal control problems in the reach-avoid category.
We derive a time-discounted reach-avoid Bellman backup with contraction mapping
properties and prove that the resulting reach-avoid Q-learning algorithm
converges under analogous conditions to the traditional Lagrange-type problem,
yielding an arbitrarily tight conservative approximation to the reach-avoid
set. We further demonstrate the use of this formulation with deep reinforcement
learning methods, retaining zero-violation guarantees by treating the
approximate solutions as untrusted oracles in a model-predictive supervisory
control framework. We evaluate our proposed framework on a range of nonlinear
systems, validating the results against analytic and numerical solutions, and
through Monte Carlo simulation in previously intractable problems. Our results
open the door to a range of learning-based methods for safe-and-live autonomous
behavior, with applications across robotics and automation. See
https://github.com/SafeRoboticsLab/safety_rl for code and supplementary
material.
- Abstract(参考訳): 到達回避可能な最適制御問題は、システムが許容できない障害モードに近づいたまま特定の目標条件に達する必要があるが、自律ロボットシステムの安全性と生存保証の中心であるが、複雑なダイナミクスや環境においては、それらの厳密な解決策は難解である。
近年の強化学習法の成功により,性能目標を用いた最適制御問題の解法が注目されているが,強化学習におけるラグランジュ型の目的は時間論理の要求を符号化するのに適していない。
近年の研究では、強化学習機械の安全性問題への拡張が期待されているが、その目的は和ではなく、時間とともに最小(あるいは最大)である。
本研究では,強化学習の定式化を一般化し,到達回避圏におけるすべての最適制御問題を扱う。
縮退写像特性を持つ時分割リーチアビドベルマンバックアップを導出し、結果のリーチアビドQ学習アルゴリズムが従来のラグランジュ型問題と類似条件で収束し、リーチアビド集合に任意に厳密な保守近似を与えることを示す。
さらに,モデル予測型スーパーバイザリー制御フレームワークにおいて,近似解を信頼できないオラクルとして扱うことにより,ゼロ違反保証を保ちながら,深層強化学習手法を用いてこの定式化の利用を実証する。
提案手法は, 解析および数値解に対して, 従来は難解であったモンテカルロシミュレーションを用いて, 様々な非線形系の枠組みを検証した。
われわれの結果は、ロボット工学や自動化にまたがる、安全で生き生きとした自律行動のための、学習に基づくさまざまな手法への扉を開く。
コードと補足資料についてはhttps://github.com/saferoboticslab/safety_rlを参照。
関連論文リスト
- Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Adaptive Robust Model Predictive Control via Uncertainty Cancellation [25.736296938185074]
本稿では,動的に重要な不確かさを補う学習に基づく頑健な予測制御アルゴリズムを提案する。
我々は、一定の等価な「推定とキャンセル」制御法に着想を得た、非線形フィードバックポリシーのクラスを最適化する。
論文 参考訳(メタデータ) (2022-12-02T18:54:23Z) - Sample-efficient Safe Learning for Online Nonlinear Control with Control
Barrier Functions [35.9713619595494]
強化学習と連続非線形制御は、複雑なシーケンシャルな意思決定タスクの複数の領域にうまく展開されている。
学習過程の探索特性とモデル不確実性の存在を考えると、それらを安全クリティカルな制御タスクに適用することは困難である。
本稿では,オンライン制御タスクを対象とした,効率のよいエピソード型安全な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T00:54:35Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。