論文の概要: Myopically Verifiable Probabilistic Certificates for Safe Control and Learning
- arxiv url: http://arxiv.org/abs/2404.16883v1
- Date: Tue, 23 Apr 2024 20:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 15:13:44.215919
- Title: Myopically Verifiable Probabilistic Certificates for Safe Control and Learning
- Title(参考訳): 安全な制御と学習のための神秘的検証可能な確率的証明書
- Authors: Zhuoyuan Wang, Haoming Jing, Christian Kurniawan, Albert Chern, Yorie Nakahira,
- Abstract要約: 環境において、無限小時間間隔におけるリスク事象の確率を制限する不分散に基づく手法は、重大な長期的リスクを示す可能性がある。
一方、長期的未来を考慮したリーチビリティに基づくアプローチでは、リアルタイムな意思決定が禁止される可能性がある。
- 参考スコア(独自算出の注目度): 7.6918726072590555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the design of safety certificates for stochastic systems, with a focus on ensuring long-term safety through fast real-time control. In stochastic environments, set invariance-based methods that restrict the probability of risk events in infinitesimal time intervals may exhibit significant long-term risks due to cumulative uncertainties/risks. On the other hand, reachability-based approaches that account for the long-term future may require prohibitive computation in real-time decision making. To overcome this challenge involving stringent long-term safety vs. computation tradeoffs, we first introduce a novel technique termed `probabilistic invariance'. This technique characterizes the invariance conditions of the probability of interest. When the target probability is defined using long-term trajectories, this technique can be used to design myopic conditions/controllers with assured long-term safe probability. Then, we integrate this technique into safe control and learning. The proposed control methods efficiently assure long-term safety using neural networks or model predictive controllers with short outlook horizons. The proposed learning methods can be used to guarantee long-term safety during and after training. Finally, we demonstrate the performance of the proposed techniques in numerical simulations.
- Abstract(参考訳): 本稿では,高速リアルタイム制御による長期安全確保に焦点をあて,確率システムの安全証明書の設計について述べる。
確率的環境においては、無限小の時間間隔におけるリスク事象の確率を制限する集合不変性に基づく手法は、累積的不確実性/リスクによる重大な長期的リスクを示す可能性がある。
一方、長期的未来を考慮に入れた到達可能性に基づくアプローチは、リアルタイム意思決定において禁止的な計算を必要とする可能性がある。
厳密な長期的安全性対計算トレードオフに関わるこの課題を克服するために,我々はまず,確率的不変性(probabilistic invariance)と呼ばれる新しい手法を導入する。
この手法は興味の確率の不変条件を特徴づける。
長期軌道を用いて目標確率を定義する場合、この手法は長期安全確率を保証した筋電図条件/コントローラの設計に使用できる。
そして、この手法を安全な制御と学習に統合する。
提案した制御手法は,ニューラルネットワークやモデル予測コントローラを用いた長期的安全性の確保に有効である。
提案手法は,訓練前後の長期的安全確保に有効である。
最後に,提案手法の性能を数値シミュレーションで示す。
関連論文リスト
- Generalizable Physics-Informed Learning for Stochastic Safety-Critical Systems [8.277567852741244]
十分なリスク事象を伴わない短期サンプルを用いて,長期的リスク確率とその勾配を評価するための効率的な手法を提案する。
提案手法は, サンプル効率を向上し, 未確認領域を一般化し, システムパラメータの変化に適応できることをシミュレーションで示す。
論文 参考訳(メタデータ) (2024-07-11T21:10:03Z) - Physics-informed RL for Maximal Safety Probability Estimation [0.8287206589886881]
本研究では,リスクのある状態や長期軌道からのサンプルを十分にカバーすることなく,最大安全行動の長期安全確率を推定する方法を検討する。
提案手法は,短期サンプルを用いて長期リスクを推定し,未サンプリング状態のリスクを推定する。
論文 参考訳(メタデータ) (2024-03-25T03:13:56Z) - A Generalizable Physics-informed Learning Framework for Risk Probability Estimation [1.5960546024967326]
我々は,長期的リスクとその勾配の確率を評価するための効率的な手法を開発した。
提案手法は, 長期リスク確率が偏微分方程式を満たすという事実を利用する。
数値計算の結果,提案手法はサンプル効率が向上し,未確認領域への一般化が可能であり,パラメータを変化させたシステムに適応できることがわかった。
論文 参考訳(メタデータ) (2023-05-10T19:44:42Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - ProBF: Learning Probabilistic Safety Certificates with Barrier Functions [31.203344483485843]
制御バリア関数は、地平系力学にアクセスできれば安全を保証できる便利なツールである。
実際には、システムダイナミクスに関する不正確な知識があるため、安全でない振る舞いにつながる可能性があります。
本手法の有効性をSegwayとQuadrotorのシミュレーション実験により示す。
論文 参考訳(メタデータ) (2021-12-22T20:18:18Z) - Learning to Act Safely with Limited Exposure and Almost Sure Certainty [1.0323063834827415]
本稿では,未知の環境における安全な行動を取るための学習を,探索試験を必要とせずに実現できるという考えを提唱する。
本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-05-18T18:05:12Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Towards Safe Policy Improvement for Non-Stationary MDPs [48.9966576179679]
多くの実世界の利害問題は非定常性を示し、利害関係が高ければ、偽の定常性仮定に関連するコストは受け入れがたい。
我々は、スムーズに変化する非定常的な意思決定問題に対して、高い信頼性で安全性を確保するための第一歩を踏み出します。
提案手法は,時系列解析を用いたモデルフリー強化学習の合成により,セルドンアルゴリズムと呼ばれる安全なアルゴリズムを拡張した。
論文 参考訳(メタデータ) (2020-10-23T20:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。