論文の概要: Learning Control Policies for Stochastic Systems with Reach-avoid
Guarantees
- arxiv url: http://arxiv.org/abs/2210.05308v1
- Date: Tue, 11 Oct 2022 10:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 15:20:51.463808
- Title: Learning Control Policies for Stochastic Systems with Reach-avoid
Guarantees
- Title(参考訳): 到達回避保証付き確率システムの学習制御方針
- Authors: {\DJ}or{\dj}e \v{Z}ikeli\'c, Mathias Lechner, Thomas A. Henzinger,
Krishnendu Chatterjee
- Abstract要約: 本研究では,形式的リーチ回避保証付き離散時間非線形力学系における学習制御装置の問題点について検討する。
我々は,本研究で導入した新しい概念であるRASM(リーチ・アビド・スーパーマーチンゲール)の形で証明書を学習する。
当社のアプローチでは,コントロールポリシをスクラッチから学習したり,固定されたコントロールポリシのリーチ回避仕様を検証したり,事前訓練されたポリシを微調整したり,といった,いくつかの重要な問題を解決しています。
- 参考スコア(独自算出の注目度): 20.045860624444494
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study the problem of learning controllers for discrete-time non-linear
stochastic dynamical systems with formal reach-avoid guarantees. This work
presents the first method for providing formal reach-avoid guarantees, which
combine and generalize stability and safety guarantees, with a tolerable
probability threshold $p\in[0,1]$ over the infinite time horizon. Our method
leverages advances in machine learning literature and it represents formal
certificates as neural networks. In particular, we learn a certificate in the
form of a reach-avoid supermartingale (RASM), a novel notion that we introduce
in this work. Our RASMs provide reachability and avoidance guarantees by
imposing constraints on what can be viewed as a stochastic extension of level
sets of Lyapunov functions for deterministic systems. Our approach solves
several important problems -- it can be used to learn a control policy from
scratch, to verify a reach-avoid specification for a fixed control policy, or
to fine-tune a pre-trained policy if it does not satisfy the reach-avoid
specification. We validate our approach on $3$ stochastic non-linear
reinforcement learning tasks.
- Abstract(参考訳): 離散時間非線形確率力学系の学習制御系の形式的到達回避保証による問題について検討する。
本研究は, 耐久確率しきい値$p\in[0,1]$を無限時間地平線上で, 安定性と安全性の保証を組み合わせ, 一般化する形式的リーチアビド保証を提供するための最初の方法を示す。
本手法は機械学習文学の進歩を活かし,形式的証明をニューラルネットワークとして表現する。
特に,本研究で導入した新しい概念であるRASM(リーチ・アビド・スーパーマーチンゲール)の形で証明書を学習する。
我々のRASMは、決定論的システムに対するリアプノフ関数のレベルセットの確率的拡張と見なせるものに対する制約を課すことにより、到達性と回避を保証する。
提案手法では,スクラッチから制御ポリシを学習し,一定の制御ポリシに対するリーチアビド仕様の検証や,リーチアビド仕様を満たさない場合の事前学習ポリシの微調整など,いくつかの重要な課題を解決している。
提案手法を3ドルの確率的非線形強化学習タスクで検証する。
関連論文リスト
- Compositional Policy Learning in Stochastic Control Systems with Formal
Guarantees [0.0]
強化学習は複雑な制御タスクに対するニューラルネットワークポリシーの学習において有望な結果を示している。
本研究では,環境におけるニューラルネットワークポリシーの構成を学習するための新しい手法を提案する。
正式な証明書は、ポリシーの行動に関する仕様が望ましい確率で満たされていることを保証します。
論文 参考訳(メタデータ) (2023-12-03T17:04:18Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Safety and Liveness Guarantees through Reach-Avoid Reinforcement
Learning [24.56889192688925]
リーチ・アビド最適制御問題は、自律ロボットシステムの安全性と生存性保証の中心である。
性能目標を用いた最適制御問題を概ね解くための強化学習手法の最近の成功は、その認証問題への適用を魅力的にしている。
最近の研究は、安全型問題を扱うための強化学習機械の拡張を約束しており、その目的は和ではなく、時間とともに最小限(または最大)である。
論文 参考訳(メタデータ) (2021-12-23T00:44:38Z) - On Imitation Learning of Linear Control Policies: Enforcing Stability
and Robustness Constraints via LMI Conditions [3.296303220677533]
線形ポリシーの模倣学習を制約付き最適化問題として定式化する。
線形行列不等式 (lmi) の制約を適合ポリシーに適用することで閉ループ安定性とロバスト性が保証できることを示す。
論文 参考訳(メタデータ) (2021-03-24T02:43:03Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。