論文の概要: Learning Predictive Safety Filter via Decomposition of Robust Invariant
Set
- arxiv url: http://arxiv.org/abs/2311.06769v1
- Date: Sun, 12 Nov 2023 08:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 17:08:41.917777
- Title: Learning Predictive Safety Filter via Decomposition of Robust Invariant
Set
- Title(参考訳): ロバスト不変集合の分解による予測安全フィルタの学習
- Authors: Zeyang Li, Chuxiong Hu, Weiye Zhao, Changliu Liu
- Abstract要約: 本稿では, RMPCとRL RLの併用による非線形システムの安全フィルタの合成について述べる。
本稿では,ロバストリーチ問題に対する政策アプローチを提案し,その複雑性を確立する。
- 参考スコア(独自算出の注目度): 6.94348936509225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring safety of nonlinear systems under model uncertainty and external
disturbances is crucial, especially for real-world control tasks. Predictive
methods such as robust model predictive control (RMPC) require solving
nonconvex optimization problems online, which leads to high computational
burden and poor scalability. Reinforcement learning (RL) works well with
complex systems, but pays the price of losing rigorous safety guarantee. This
paper presents a theoretical framework that bridges the advantages of both RMPC
and RL to synthesize safety filters for nonlinear systems with state- and
action-dependent uncertainty. We decompose the robust invariant set (RIS) into
two parts: a target set that aligns with terminal region design of RMPC, and a
reach-avoid set that accounts for the rest of RIS. We propose a policy
iteration approach for robust reach-avoid problems and establish its monotone
convergence. This method sets the stage for an adversarial actor-critic deep RL
algorithm, which simultaneously synthesizes a reach-avoid policy network, a
disturbance policy network, and a reach-avoid value network. The learned
reach-avoid policy network is utilized to generate nominal trajectories for
online verification, which filters potentially unsafe actions that may drive
the system into unsafe regions when worst-case disturbances are applied. We
formulate a second-order cone programming (SOCP) approach for online
verification using system level synthesis, which optimizes for the worst-case
reach-avoid value of any possible trajectories. The proposed safety filter
requires much lower computational complexity than RMPC and still enjoys
persistent robust safety guarantee. The effectiveness of our method is
illustrated through a numerical example.
- Abstract(参考訳): モデル不確実性と外乱の下での非線形システムの安全性確保は特に実世界の制御タスクにおいて重要である。
堅牢なモデル予測制御(RMPC)のような予測手法では、非凸最適化問題をオンラインで解く必要があり、高い計算負担とスケーラビリティの低下につながる。
強化学習(RL)は複雑なシステムでうまく機能するが、厳格な安全保証を失う費用を支払う。
本稿では, rmpc と rl の双方の利点を橋渡し, 状態依存及び動作依存の不確実性を有する非線形システムの安全フィルタを合成する理論的枠組みを提案する。
我々は、ロバスト不変集合(RIS)をRMPCの終端領域設計と整合するターゲット集合と、RISの残りの部分を占めるリーチエイド集合の2つの部分に分解する。
本稿では,強固な到達回避問題に対するポリシー反復手法を提案し,その単調収束性を確立する。
本手法は、到達回避ポリシーネットワーク、外乱ポリシーネットワーク、到達回避値ネットワークを同時に合成する、敵対的アクター批判深層rlアルゴリズムのステージを設定する。
学習したリーチ・アビドポリシーネットワークを使用して、オンライン検証のための名目上のトラジェクトリを生成し、最悪のケース障害を適用した場合にシステムを安全でない領域に誘導する可能性のある、潜在的に安全でないアクションをフィルタリングする。
我々は,システムレベル合成を用いたオンライン検証のための2次コーンプログラミング(SOCP)アプローチを定式化し,任意の軌道の最悪の到達回避値に最適化する。
提案する安全フィルタは, rmpcよりも計算複雑性がはるかに低く, 持続的な堅牢な安全性保証を享受できる。
本手法の有効性を数値例で示す。
関連論文リスト
- Augmented Lagrangian-Based Safe Reinforcement Learning Approach for Distribution System Volt/VAR Control [1.1059341532498634]
本稿では,Volt-VAR制御問題をマルコフ決定過程(CMDP)として定式化する。
本稿では, CMDP を解くために, 安全な非政治強化学習(RL)手法を提案する。
オフライントレーニングとオンライン実行には2段階の戦略が採用されているため、正確な分散システムモデルはもはや不要である。
論文 参考訳(メタデータ) (2024-10-19T19:45:09Z) - Implicit Safe Set Algorithm for Provably Safe Reinforcement Learning [7.349727826230864]
DRLエージェントのセーフガードを合成するためのモデルフリー安全な制御アルゴリズムである暗黙のセーフセットアルゴリズムを提案する。
提案アルゴリズムは,ブラックボックスの動的関数を問合せするだけで,安全指標(バリア証明書)とその後の安全制御則を合成する。
提案アルゴリズムを最先端のSafety Gymベンチマークで検証し、95% pm 9%$ cumulative rewardを得た上で安全性違反をゼロにする。
論文 参考訳(メタデータ) (2024-05-04T20:59:06Z) - ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints [34.9739641898452]
本研究では、最適値とポリシーのニューラルネットワーク近似を学習することにより、信念空間におけるCC-POMDPを解くConstrainedZeroポリシーアルゴリズムを導入する。
その結果, 目標から安全制約を分離することで, 報酬とコストのバランスを最適化することなく, 目標となる安全レベルを達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-01T17:17:22Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - CaRT: Certified Safety and Robust Tracking in Learning-based Motion
Planning for Multi-Agent Systems [7.77024796789203]
CaRTは、学習ベースのモーションプランニングポリシーの安全性と堅牢性を保証するために、新しい階層的な分散アーキテクチャである。
定性障害や有界障害があっても,CaRTは軌道追跡誤差の安全性と指数関数性を保証する。
本稿では, 非線形動作計画と制御問題のいくつかの例において, CaRTの有効性を実証する。
論文 参考訳(メタデータ) (2023-07-13T21:51:29Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。