論文の概要: Safety Filters for Black-Box Dynamical Systems by Learning Discriminating Hyperplanes
- arxiv url: http://arxiv.org/abs/2402.05279v2
- Date: Tue, 21 May 2024 16:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 18:31:52.044762
- Title: Safety Filters for Black-Box Dynamical Systems by Learning Discriminating Hyperplanes
- Title(参考訳): 極超平面の識別学習によるブラックボックス力学系の安全フィルタ
- Authors: Will Lavanakul, Jason J. Choi, Koushil Sreenath, Claire J. Tomlin,
- Abstract要約: ブラックボックス力学系における安全フィルタの効果的なアプローチとして,学習ベースのアプローチが登場している。
a) 教師付き学習アプローチ, ラベル付けのための事前検証された制御不変集合, および (b) そのようなラベルを必要としない強化学習(RL)アプローチの2つの方法を提案する。
- 参考スコア(独自算出の注目度): 26.242421052632807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-based approaches are emerging as an effective approach for safety filters for black-box dynamical systems. Existing methods have relied on certificate functions like Control Barrier Functions (CBFs) and Hamilton-Jacobi (HJ) reachability value functions. The primary motivation for our work is the recognition that ultimately, enforcing the safety constraint as a control input constraint at each state is what matters. By focusing on this constraint, we can eliminate dependence on any specific certificate function-based design. To achieve this, we define a discriminating hyperplane that shapes the half-space constraint on control input at each state, serving as a sufficient condition for safety. This concept not only generalizes over traditional safety methods but also simplifies safety filter design by eliminating dependence on specific certificate functions. We present two strategies to learn the discriminating hyperplane: (a) a supervised learning approach, using pre-verified control invariant sets for labeling, and (b) a reinforcement learning (RL) approach, which does not require such labels. The main advantage of our method, unlike conventional safe RL approaches, is the separation of performance and safety. This offers a reusable safety filter for learning new tasks, avoiding the need to retrain from scratch. As such, we believe that the new notion of the discriminating hyperplane offers a more generalizable direction towards designing safety filters, encompassing and extending existing certificate-function-based or safe RL methodologies.
- Abstract(参考訳): ブラックボックス力学系における安全フィルタの効果的なアプローチとして,学習ベースのアプローチが登場している。
既存の方法は、制御バリア関数(CBF)やハミルトン・ヤコビ(HJ)リーチビリティ値関数のような証明書関数に依存している。
私たちの研究の主な動機は、究極的には、各状態における制御入力制約として安全制約を強制することが重要なことだ、という認識です。
この制約にフォーカスすることで、特定の証明書関数ベースの設計への依存を排除できます。
これを実現するために、各状態における制御入力のハーフスペース制約を形作る識別超平面を定義し、安全のための十分な条件として機能する。
この概念は、従来の安全手法を一般化するだけでなく、特定の証明書関数への依存を排除して、安全フィルタ設計を単純化する。
識別超平面を学習するための2つの戦略を提示する。
(a)ラベル付けのための事前検証された制御不変集合を用いた教師付き学習アプローチ
b)そのようなラベルを必要としない強化学習(RL)アプローチ。
我々の手法の主な利点は、従来の安全RLアプローチとは異なり、性能と安全性の分離である。
これにより、新しいタスクを学習するための再利用可能な安全フィルタが提供され、ゼロから再トレーニングする必要がなくなる。
このように、差別化超平面という新しい概念は、既存の証明機能に基づくもしくは安全なRL方法論を包含し拡張し、安全フィルタを設計するためのより一般化可能な方向を提供すると信じている。
関連論文リスト
- Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Safe Online Dynamics Learning with Initially Unknown Models and
Infeasible Safety Certificates [45.72598064481916]
本稿では、制御バリア関数(CBF)2次コーンプログラムに基づく、堅牢な安全証明書を備えた学習ベースの設定について考察する。
制御バリア関数証明書が実現可能ならば,その安全性を確保するため,本手法では,データ収集と制御バリア関数制約の実現可能性の回復のために,システムダイナミクスを探索する。
論文 参考訳(メタデータ) (2023-11-03T14:23:57Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - CaRT: Certified Safety and Robust Tracking in Learning-based Motion
Planning for Multi-Agent Systems [7.77024796789203]
CaRTは、学習ベースのモーションプランニングポリシーの安全性と堅牢性を保証するために、新しい階層的な分散アーキテクチャである。
定性障害や有界障害があっても,CaRTは軌道追跡誤差の安全性と指数関数性を保証する。
本稿では, 非線形動作計画と制御問題のいくつかの例において, CaRTの有効性を実証する。
論文 参考訳(メタデータ) (2023-07-13T21:51:29Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe and Efficient Reinforcement Learning Using
Disturbance-Observer-Based Control Barrier Functions [5.571154223075409]
本稿では、外乱オブザーバ(DOB)と制御バリア機能(CBF)を用いた安全かつ効率的な強化学習(RL)手法を提案する。
本手法はモデル学習を伴わず,DOBを用いて不確実性のポイントワイド値を正確に推定し,安全行動を生成するための頑健なCBF条件に組み込む。
提案手法は,CBFとガウス過程に基づくモデル学習を用いて,最先端の安全なRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-11-30T18:49:53Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。
我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。
ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文 参考訳(メタデータ) (2021-06-03T16:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。