論文の概要: Safe Online Dynamics Learning with Initially Unknown Models and
Infeasible Safety Certificates
- arxiv url: http://arxiv.org/abs/2311.02133v1
- Date: Fri, 3 Nov 2023 14:23:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 19:08:18.778041
- Title: Safe Online Dynamics Learning with Initially Unknown Models and
Infeasible Safety Certificates
- Title(参考訳): 未知のモデルと実用不可能な安全証明書を用いた安全オンラインダイナミクス学習
- Authors: Alexandre Capone, Ryan Cosner, Aaron Ames, Sandra Hirche
- Abstract要約: 本稿では、制御バリア関数(CBF)2次コーンプログラムに基づく、堅牢な安全証明書を備えた学習ベースの設定について考察する。
制御バリア関数証明書が実現可能ならば,その安全性を確保するため,本手法では,データ収集と制御バリア関数制約の実現可能性の回復のために,システムダイナミクスを探索する。
- 参考スコア(独自算出の注目度): 45.72598064481916
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Safety-critical control tasks with high levels of uncertainty are becoming
increasingly common. Typically, techniques that guarantee safety during
learning and control utilize constraint-based safety certificates, which can be
leveraged to compute safe control inputs. However, excessive model uncertainty
can render robust safety certification methods or infeasible, meaning no
control input satisfies the constraints imposed by the safety certificate. This
paper considers a learning-based setting with a robust safety certificate based
on a control barrier function (CBF) second-order cone program. If the control
barrier function certificate is feasible, our approach leverages it to
guarantee safety. Otherwise, our method explores the system dynamics to collect
data and recover the feasibility of the control barrier function constraint. To
this end, we employ a method inspired by well-established tools from Bayesian
optimization. We show that if the sampling frequency is high enough, we recover
the feasibility of the robust CBF certificate, guaranteeing safety. Our
approach requires no prior model and corresponds, to the best of our knowledge,
to the first algorithm that guarantees safety in settings with occasionally
infeasible safety certificates without requiring a backup non-learning-based
controller.
- Abstract(参考訳): 不確実性が高い安全クリティカルな制御タスクがますます一般的になっている。
通常、学習と制御中の安全性を保証する技術は、安全制御入力を計算するために利用される制約ベースの安全証明書を利用する。
しかし、過度なモデル不確実性は堅牢な安全性認証手法や実現不可能を図ることができるため、安全証明書によって課される制約を満たす制御入力は得られない。
本稿では,制御バリア関数(cbf)2次コーンプログラムに基づくロバストな安全証明書を用いた学習ベースの設定について検討する。
コントロールバリア機能証明書が実現可能ならば,安全性を保証するために,当社のアプローチが活用します。
さもなくば,本手法は,データ収集のためのシステムダイナミクスを探索し,制御障壁関数制約の有効性を回復する。
この目的のために,ベイズ最適化の確立したツールに触発された手法を採用する。
サンプリング周波数が十分高い場合には、ロバストなcbf証明書の信頼性を回復し、安全性を保証できることを示す。
我々のアプローチでは、事前のモデルや知識を必要とせず、バックアップされた非学習ベースのコントローラを必要とせずに、時折実現不可能な安全証明書を持つ設定における安全性を保証する最初のアルゴリズムに対応しています。
関連論文リスト
- Transfer of Safety Controllers Through Learning Deep Inverse Dynamics Model [4.7962647777554634]
制御障壁証明書は、制御システムの安全性を正式に保証する上で有効であることが証明されている。
制御障壁証明書の設計は、時間がかかり、計算に費用がかかる作業である。
本稿では,制御器の正当性を保証する妥当性条件を提案する。
論文 参考訳(メタデータ) (2024-05-22T15:28:43Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Joint Synthesis of Safety Certificate and Safe Control Policy using
Constrained Reinforcement Learning [7.658716383823426]
有効な安全証明書は、安全状態が低エネルギーであることを示すエネルギー関数である。
既存の学習に基づく研究は、安全証明書と安全管理ポリシーを、相互に学ぶための事前知識として扱う。
本稿では、エネルギー機能に基づく安全証明書を同時に合成し、CRLによる安全制御ポリシーを学習する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-15T12:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。