論文の概要: Neural Certificates for Safe Control Policies
- arxiv url: http://arxiv.org/abs/2006.08465v1
- Date: Mon, 15 Jun 2020 15:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 05:19:06.940554
- Title: Neural Certificates for Safe Control Policies
- Title(参考訳): 安全対策のためのニューラル証明書
- Authors: Wanxin Jin, Zhaoran Wang, Zhuoran Yang, Shaoshuai Mou
- Abstract要約: 本稿では,安全かつ目標達成の両立が保証される動的システムの方針を学習するためのアプローチを開発する。
本手法の有効性は, 振り子, カートポール, UAVなどの各種システムにおいて, 安全かつ目標達成的な政策を学習するための手法の有効性を示す。
- 参考スコア(独自算出の注目度): 108.4560749465701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper develops an approach to learn a policy of a dynamical system that
is guaranteed to be both provably safe and goal-reaching. Here, the safety
means that a policy must not drive the state of the system to any unsafe
region, while the goal-reaching requires the trajectory of the controlled
system asymptotically converges to a goal region (a generalization of
stability). We obtain the safe and goal-reaching policy by jointly learning two
additional certificate functions: a barrier function that guarantees the safety
and a developed Lyapunov-like function to fulfill the goal-reaching
requirement, both of which are represented by neural networks. We show the
effectiveness of the method to learn both safe and goal-reaching policies on
various systems, including pendulums, cart-poles, and UAVs.
- Abstract(参考訳): 本稿では,安全かつ目標達成の両立が保証される動的システムの方針を学習するためのアプローチを開発する。
ここでの安全とは、政策がシステムの状態を任意の安全でない領域に動かさなければならないことを意味し、一方、目標達成には制御システムの軌道が漸近的にゴール領域に収束する(安定性の一般化)必要がある。
我々は,安全性を保証するバリア関数と,ニューラルネットワークで表現される目標獲得要求を満たすために開発されたリャプノフ様関数の2つの追加証明関数を共同で学習することにより,安全かつ目標獲得政策を得る。
本手法は, 振り子, カートポール, uavなど, 様々なシステムにおいて安全かつゴールリーチポリシを学習する手法の有効性を示す。
関連論文リスト
- Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Towards Safe Continuing Task Reinforcement Learning [21.390201009230246]
再起動を必要とせずに継続するタスク設定で動作可能なアルゴリズムを提案する。
本手法は,安全な探索を通じて安全な政策を学習する上で,提案手法の能力を示す数値例で評価する。
論文 参考訳(メタデータ) (2021-02-24T22:12:25Z) - Safely Learning Dynamical Systems from Short Trajectories [12.184674552836414]
未知の力学系を制御することの学習における根本的な課題は、安全を維持しながら測定を行うことによってモデルの不確実性を減少させることである。
我々は,次の軌道の始点を逐次決定することで,力学系を安全に学習することの意味の数学的定義を定式化する。
本稿では,長さ1の軌跡から真の力学を安全に復元するか,安全な学習が不可能であることを証明した線形プログラミングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-24T18:06:10Z) - Neural Lyapunov Redesign [36.2939747271983]
学習コントローラは、エージェントや環境に害を与えないように、何らかの安全の概念を保証しなければなりません。
リアプノフ関数は非線形力学系の安定性を評価する効果的なツールである。
本稿では,リアプノフ関数の推定と,安定領域を徐々に拡大する制御器の導出を交互に行う2プレーヤ協調アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-06T19:22:20Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。