論文の概要: Safe Learning of Uncertain Environments for Nonlinear Control-Affine
Systems
- arxiv url: http://arxiv.org/abs/2103.01413v1
- Date: Tue, 2 Mar 2021 01:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:51:42.267046
- Title: Safe Learning of Uncertain Environments for Nonlinear Control-Affine
Systems
- Title(参考訳): 非線形制御-アフィン系の不確かさ環境の安全学習
- Authors: Farhad Farokhi, Alex Leong, Iman Shames, Mohammad Zamani
- Abstract要約: 未知の添加不確実性を受ける非線形制御アフィン系における安全な学習の問題を検討する。
我々はガウス信号として不確実性をモデル化し、状態測定を用いて平均と共分散境界を学習する。
学習と制御が同時に行われる間、我々は任意に大きな確率で状態が安全なセットにとどまることを保証することができることを示しています。
- 参考スコア(独自算出の注目度): 10.918870296899245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many learning based control methodologies, learning the unknown dynamic
model precedes the control phase, while the aim is to control the system such
that it remains in some safe region of the state space. In this work our aim is
to guarantee safety while learning and control proceed simultaneously.
Specifically, we consider the problem of safe learning in nonlinear
control-affine systems subject to unknown additive uncertainty. We model
uncertainty as a Gaussian signal and use state measurements to learn its mean
and covariance. We provide rigorous time-varying bounds on the mean and
covariance of the uncertainty and employ them to modify the control input via
an optimisation program with safety constraints encoded as a barrier function
on the state space. We show that with an arbitrarily large probability we can
guarantee that the state will remain in the safe set, while learning and
control are carried out simultaneously, provided that a feasible solution
exists for the optimisation problem. We provide a secondary formulation of this
optimisation that is computationally more efficient. This is based on
tightening the safety constraints to counter the uncertainty about the learned
mean and covariance. The magnitude of the tightening can be decreased as our
confidence in the learned mean and covariance increases (i.e., as we gather
more measurements about the environment). Extensions of the method are provided
for Gaussian uncertainties with piecewise constant mean and covariance to
accommodate more general environments.
- Abstract(参考訳): 多くの学習ベースの制御手法では、未知の動的モデルを学習することが制御フェーズに先行し、状態空間の安全な領域に留まるようにシステムを制御することを目的としている。
この作業では,学習と制御の同時進行による安全性の確保が目標です。
具体的には,未知の加法的不確実性を考慮した非線形制御系における安全学習の問題を考える。
不確かさをガウス信号としてモデル化し、状態測定を用いて平均と共分散を学習する。
我々は,不確実性の平均と共分散に関する厳密な時間変動境界を提供し,それらの制約を状態空間上の障壁関数としてコード化された安全制約により最適化プログラムを介して制御入力を変更する。
最適化問題に対して実現可能な解が存在することを条件に学習と制御を同時に実施しながら、任意に大きな確率で状態が安全セットに残ることを保証できることを示す。
この最適化の二次的定式化は計算効率が良い。
これは、学習した平均と共分散に関する不確実性に対処するために安全性の制約を締め付けることに基づいている。
学習平均に対する我々の信頼度と共分散が増加するにつれて、締め付けの規模は小さくなる(つまり、環境に関するより多くの測定値を集めるにつれて)。
この方法の拡張は、より一般的な環境に対応するために、区分的な定数平均と共変性を持つガウスの不確かさに対して与えられる。
関連論文リスト
- Distributionally Safe Reinforcement Learning under Model Uncertainty: A
Single-Level Approach by Differentiable Convex Programming [4.825619788907192]
We present a tractable distributionally safe reinforcement learning framework to enforce safety under a distributional shift by a Wasserstein metric。
トラクタビリティを向上させるために、まず双対性理論を用いて、低次最適化を無限次元確率空間から有限次元パラメトリック空間に変換する。
微分可能凸プログラミングにより、二段階安全な学習問題は、さらに2つの逐次計算効率のモジュールを持つ1つのレベルに削減される。
論文 参考訳(メタデータ) (2023-10-03T22:05:05Z) - Adaptive Robust Model Predictive Control via Uncertainty Cancellation [25.736296938185074]
本稿では,動的に重要な不確かさを補う学習に基づく頑健な予測制御アルゴリズムを提案する。
我々は、一定の等価な「推定とキャンセル」制御法に着想を得た、非線形フィードバックポリシーのクラスを最適化する。
論文 参考訳(メタデータ) (2022-12-02T18:54:23Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Learning Safety Filters for Unknown Discrete-Time Linear Systems [11.533793543850384]
安全性は状態に対するポリトピー的制約と制御入力によって特徴づけられる。
実験的に学習されたモデルとプロセスノイズの共分散と信頼境界は、高い確率で安全性を確保するために名目制御動作を最小限に修正する頑健な最適化問題を構築するために使用される。
論文 参考訳(メタデータ) (2021-11-01T00:14:08Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Adaptive Robust Model Predictive Control with Matched and Unmatched
Uncertainty [28.10549712956161]
離散時間系のダイナミクスにおける大きな不確実性を扱うことができる学習ベースの堅牢な予測制御アルゴリズムを提案する。
既存の学習に基づく予測制御アルゴリズムが大規模な不確実性が存在する場合の安全性を確保することができず、性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-16T17:47:02Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。