論文の概要: Failing with Grace: Learning Neural Network Controllers that are
Boundedly Unsafe
- arxiv url: http://arxiv.org/abs/2106.11881v1
- Date: Tue, 22 Jun 2021 15:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 14:38:26.697775
- Title: Failing with Grace: Learning Neural Network Controllers that are
Boundedly Unsafe
- Title(参考訳): graceの失敗: 境界的に安全でないニューラルネットワークコントローラの学習
- Authors: Panagiotis Vlantis and Michael M. Zavlanos
- Abstract要約: 小型の作業空間で任意の形状のロボットを安全に操縦するために、フィードフォワードニューラルネットワーク(NN)コントローラを学習する問題を考察する。
本稿では,実際に満たすのが難しいデータに対して,そのような仮定を持ち上げるアプローチを提案する。
提案手法の有効性を検証したシミュレーション研究を提案する。
- 参考スコア(独自算出の注目度): 18.34490939288318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we consider the problem of learning a feed-forward neural
network (NN) controller to safely steer an arbitrarily shaped planar robot in a
compact and obstacle-occluded workspace. Unlike existing methods that depend
strongly on the density of data points close to the boundary of the safe state
space to train NN controllers with closed-loop safety guarantees, we propose an
approach that lifts such assumptions on the data that are hard to satisfy in
practice and instead allows for graceful safety violations, i.e., of a bounded
magnitude that can be spatially controlled. To do so, we employ reachability
analysis methods to encapsulate safety constraints in the training process.
Specifically, to obtain a computationally efficient over-approximation of the
forward reachable set of the closed-loop system, we partition the robot's state
space into cells and adaptively subdivide the cells that contain states which
may escape the safe set under the trained control law. To do so, we first
design appropriate under- and over-approximations of the robot's footprint to
adaptively subdivide the configuration space into cells. Then, using the
overlap between each cell's forward reachable set and the set of infeasible
robot configurations as a measure for safety violations, we introduce penalty
terms into the loss function that penalize this overlap in the training
process. As a result, our method can learn a safe vector field for the
closed-loop system and, at the same time, provide numerical worst-case bounds
on safety violation over the whole configuration space, defined by the overlap
between the over-approximation of the forward reachable set of the closed-loop
system and the set of unsafe states. Moreover, it can control the tradeoff
between computational complexity and tightness of these bounds. Finally, we
provide a simulation study that verifies the efficacy of the proposed scheme.
- Abstract(参考訳): 本研究では,任意形状の平面ロボットをコンパクトで障害物を伴わない作業空間で安全に操縦するために,フィードフォワードニューラルネットワーク(nn)コントローラを学習する問題を考える。
安全状態空間の境界に近いデータポイントの密度に強く依存する既存の手法とは異なり、NNコントローラをクローズドループ安全保証で訓練する手法では、実際に満たせないデータに対するそのような仮定を引き上げ、代わりに空間的に制御可能な境界大の優雅な安全違反を許容するアプローチを提案する。
そこで我々は,安全制約をカプセル化する到達可能性解析手法を採用する。
具体的には、クローズドループシステムの前方到達可能な集合を計算効率良く近似するために、ロボットの状態空間を細胞に分割し、訓練された制御法の下で安全な集合から逃れる可能性のある状態を含む細胞を適応的に分割する。
そこで我々はまず,ロボットの足跡の下方および上方への近似を適切に設計し,構成空間を細胞に適応的に分割する。
そして,各セルの前方到達可能集合と実現不可能なロボット構成の集合との重なりを安全違反の尺度として用い,この重なりを訓練過程で罰する損失関数にペナルティ項を導入する。
その結果, 閉ループ系における安全ベクトル場を学習し, 同時に, 閉ループ系の前方到達可能な集合と安全でない状態の集合との重なり合いによって定義される構成空間全体の安全違反に関する数値的な最悪のケース境界を提供することができた。
さらに、計算の複雑さとこれらの境界の厳密さの間のトレードオフを制御できる。
最後に,提案手法の有効性を検証したシミュレーション研究を提案する。
関連論文リスト
- Pareto Control Barrier Function for Inner Safe Set Maximization Under Input Constraints [50.920465513162334]
入力制約下での動的システムの内部安全集合を最大化するPCBFアルゴリズムを提案する。
逆振り子に対するハミルトン・ヤコビの到達性との比較と,12次元四元数系のシミュレーションにより,その有効性を検証する。
その結果,PCBFは既存の手法を一貫して上回り,入力制約下での安全性を確保した。
論文 参考訳(メタデータ) (2024-10-05T18:45:19Z) - Learning Predictive Safety Filter via Decomposition of Robust Invariant
Set [6.94348936509225]
本稿では, RMPCとRL RLの併用による非線形システムの安全フィルタの合成について述べる。
本稿では,ロバストリーチ問題に対する政策アプローチを提案し,その複雑性を確立する。
論文 参考訳(メタデータ) (2023-11-12T08:11:28Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - BarrierNet: A Safety-Guaranteed Layer for Neural Networks [50.86816322277293]
BarrierNetは、ニューラルコントローラの安全性の制約が環境の変化に適応できるようにする。
本研究では,2次元空間と3次元空間における交通統合やロボットナビゲーションといった一連の制御問題について評価する。
論文 参考訳(メタデータ) (2021-11-22T15:38:11Z) - Model-based Chance-Constrained Reinforcement Learning via Separated
Proportional-Integral Lagrangian [5.686699342802045]
本研究では、不確実性の下でRL安全性を高めるために、分離された比例積分ラグランジアンアルゴリズムを提案する。
本稿では,自動車追従シミュレーションにおいて,RLポリシーの振動と保守性を低減できることを示す。
論文 参考訳(メタデータ) (2021-08-26T07:34:14Z) - Constrained Feedforward Neural Network Training via Reachability
Analysis [0.0]
安全上の制約に従うためにニューラルネットワークをトレーニングすることは、依然としてオープンな課題である。
本研究は, 整列線形単位(ReLU)非線形性を持つフィードフォワードニューラルネットワークを同時に訓練し, 検証する制約付き手法を提案する。
論文 参考訳(メタデータ) (2021-07-16T04:03:01Z) - Safe Learning of Uncertain Environments for Nonlinear Control-Affine
Systems [10.918870296899245]
未知の添加不確実性を受ける非線形制御アフィン系における安全な学習の問題を検討する。
我々はガウス信号として不確実性をモデル化し、状態測定を用いて平均と共分散境界を学習する。
学習と制御が同時に行われる間、我々は任意に大きな確率で状態が安全なセットにとどまることを保証することができることを示しています。
論文 参考訳(メタデータ) (2021-03-02T01:58:02Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。