論文の概要: SABLAS: Learning Safe Control for Black-box Dynamical Systems
- arxiv url: http://arxiv.org/abs/2201.01918v1
- Date: Thu, 6 Jan 2022 04:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 14:40:53.502545
- Title: SABLAS: Learning Safe Control for Black-box Dynamical Systems
- Title(参考訳): SABLAS:ブラックボックス動的システムのための安全な学習制御
- Authors: Zengyi Qin, Dawei Sun and Chuchu Fan
- Abstract要約: ブラックボックス力学系に対する安全な制御ポリシーとバリア証明書を学習できる新しい手法を提案する。
本手法は, ほぼ100%の安全性と目標到達率を達成することにより, 学習方針の性能を著しく向上させることができる。
私たちの学習エージェントは、元のパフォーマンスを維持しながら、目に見えないシナリオに一般化することができます。
- 参考スコア(独自算出の注目度): 13.008663499888113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Control certificates based on barrier functions have been a powerful tool to
generate probably safe control policies for dynamical systems. However,
existing methods based on barrier certificates are normally for white-box
systems with differentiable dynamics, which makes them inapplicable to many
practical applications where the system is a black-box and cannot be accurately
modeled. On the other side, model-free reinforcement learning (RL) methods for
black-box systems suffer from lack of safety guarantees and low sampling
efficiency. In this paper, we propose a novel method that can learn safe
control policies and barrier certificates for black-box dynamical systems,
without requiring for an accurate system model. Our method re-designs the loss
function to back-propagate gradient to the control policy even when the
black-box dynamical system is non-differentiable, and we show that the safety
certificates hold on the black-box system. Empirical results in simulation show
that our method can significantly improve the performance of the learned
policies by achieving nearly 100% safety and goal reaching rates using much
fewer training samples, compared to state-of-the-art black-box safe control
methods. Our learned agents can also generalize to unseen scenarios while
keeping the original performance. The source code can be found at
https://github.com/Zengyi-Qin/bcbf.
- Abstract(参考訳): バリア関数に基づく制御証明書は、動的システムのおそらく安全な制御ポリシーを生成する強力なツールである。
しかしながら、バリア証明書に基づく既存の手法は、通常、識別可能な力学を持つホワイトボックスシステムに適用されるため、システムはブラックボックスであり、正確にモデル化できない多くの実用アプリケーションには適用できない。
一方、ブラックボックスシステムのモデルフリー強化学習(RL)法は、安全性保証の欠如とサンプリング効率の低下に悩まされている。
本稿では,ブラックボックス力学系の安全制御ポリシとバリア証明書を,システムモデルを正確に必要とせずに学習できる新しい手法を提案する。
本手法では,ブラックボックス力学系が微分不能であっても制御方針への勾配をバックプロパゲートするために損失関数を再設計し,ブラックボックス系に安全証明書が保持されていることを示す。
シミュレーション実験の結果,本手法は,最新のブラックボックスセーフコントロール法に比べて,100%の安全性と目標到達率をはるかに少ないトレーニングサンプルで達成することで,学習方針の性能を大幅に向上できることがわかった。
私たちの学習エージェントは、元のパフォーマンスを維持しながら、目に見えないシナリオに一般化することができます。
ソースコードはhttps://github.com/zengyi-qin/bcbfにある。
関連論文リスト
- Learning-Based Shielding for Safe Autonomy under Unknown Dynamics [9.786577115501602]
シールド(英: Shielding)は、ブラックボックスコントローラの下でシステムの安全性を保証する方法である。
本稿では,未知システムの安全性を保証するデータ駆動遮蔽手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T16:10:15Z) - Safety Filters for Black-Box Dynamical Systems by Learning Discriminating Hyperplanes [26.242421052632807]
ブラックボックス力学系における安全フィルタの効果的なアプローチとして,学習ベースのアプローチが登場している。
a) 教師付き学習アプローチ, ラベル付けのための事前検証された制御不変集合, および (b) そのようなラベルを必要としない強化学習(RL)アプローチの2つの方法を提案する。
論文 参考訳(メタデータ) (2024-02-07T21:49:51Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Sample-efficient Safe Learning for Online Nonlinear Control with Control
Barrier Functions [35.9713619595494]
強化学習と連続非線形制御は、複雑なシーケンシャルな意思決定タスクの複数の領域にうまく展開されている。
学習過程の探索特性とモデル不確実性の存在を考えると、それらを安全クリティカルな制御タスクに適用することは困難である。
本稿では,オンライン制御タスクを対象とした,効率のよいエピソード型安全な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T00:54:35Z) - Dynamic Shielding for Reinforcement Learning in Black-Box Environments [2.696933675395521]
サイバー物理システムにおける強化学習の利用は,学習中の安全性保証の欠如により困難である。
本稿では,事前のシステム知識を必要とせず,学習時の望ましくない行動を減らすことを目的とする。
本稿では,自動学習を用いた遮蔽と呼ばれるモデルベース安全なRL手法の拡張として,動的遮蔽を提案する。
論文 参考訳(メタデータ) (2022-07-27T10:54:05Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - GoSafeOpt: Scalable Safe Exploration for Global Optimization of
Dynamical Systems [75.22958991597069]
本研究は,高次元システムに対するグローバルな最適ポリシーを安全に発見できる最初のアルゴリズムとして,GoSafeOptを提案する。
ロボットアーム上でのモデルフリーの安全な学習方法よりも,GoSafeOptの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-01-24T10:05:44Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。