論文の概要: Safe Learning of Linear Time-Invariant Systems
- arxiv url: http://arxiv.org/abs/2111.00631v1
- Date: Mon, 1 Nov 2021 00:14:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 15:00:13.867747
- Title: Safe Learning of Linear Time-Invariant Systems
- Title(参考訳): 線形時間不変系の安全学習
- Authors: Farhad Farokhi, Alex S. Leong, Mohammad Zamani, Iman Shames
- Abstract要約: 離散時間線形時間不変系の同時学習における安全性と制御について考察する。
利用状態測定の回数に基づいて,システムの学習モデルに基づく厳密な信頼性境界を提供する。
励起の持続下では、より多くの測定値が収集されるにつれて、締め付けは無視される。
- 参考スコア(独自算出の注目度): 10.918870296899245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider safety in simultaneous learning and control of discrete-time
linear time-invariant systems. We provide rigorous confidence bounds on the
learned model of the system based on the number of utilized state measurements.
These bounds are used to modify control inputs to the system via an
optimization problem with potentially time-varying safety constraints. We prove
that the state can only exit the safe set with small probability, provided a
feasible solution to the safety-constrained optimization exists. This
optimization problem is then reformulated in a more computationally-friendly
format by tightening the safety constraints to account for model uncertainty
during learning. The tightening decreases as the confidence in the learned
model improves. We finally prove that, under persistence of excitation, the
tightening becomes negligible as more measurements are gathered.
- Abstract(参考訳): 離散時間線形時間不変システムの同時学習と制御における安全性を検討する。
利用状態の測定回数に基づいて,システムの学習モデルに基づく厳密な信頼性境界を提供する。
これらの境界は、潜在的に時間的制約のある最適化問題によってシステムへの制御入力を変更するために使用される。
安全性に制約のある最適化が実現可能な解決策が存在する場合, 安全セットを最小限の確率で退避させることが証明できる。
この最適化問題は、学習中のモデルの不確実性を考慮した安全制約を厳格化することにより、より計算に優しい形式に再構成される。
学習モデルの信頼性が向上するにつれて、締め付けは減少する。
最終的に、励起の持続下では、より多くの測定値が収集されるにつれて、締め付けは無視される。
関連論文リスト
- Adaptive Robust Model Predictive Control via Uncertainty Cancellation [25.736296938185074]
本稿では,動的に重要な不確かさを補う学習に基づく頑健な予測制御アルゴリズムを提案する。
我々は、一定の等価な「推定とキャンセル」制御法に着想を得た、非線形フィードバックポリシーのクラスを最適化する。
論文 参考訳(メタデータ) (2022-12-02T18:54:23Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Recursively Feasible Probabilistic Safe Online Learning with Control
Barrier Functions [63.18590014127461]
本稿では,CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
本研究では,ロバストな安全クリティカルコントローラの実現可能性について検討する。
次に、これらの条件を使って、イベントトリガーによるオンラインデータ収集戦略を考案します。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Reinforcement Learning Policies in Continuous-Time Linear Systems [0.0]
パラメータ推定を慎重にランダムにすることで、最適行動の学習を迅速に行うオンラインポリシーを提案する。
非接触系の力学に対する鋭い安定性を証明し、準最適動作による無限小の後悔を厳密に特定する。
我々の分析は、継続的強化学習における基本的な課題に光を当て、同様の問題に対する有用な基礎となることを示唆している。
論文 参考訳(メタデータ) (2021-09-16T00:08:50Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Safe Learning of Uncertain Environments for Nonlinear Control-Affine
Systems [10.918870296899245]
未知の添加不確実性を受ける非線形制御アフィン系における安全な学習の問題を検討する。
我々はガウス信号として不確実性をモデル化し、状態測定を用いて平均と共分散境界を学習する。
学習と制御が同時に行われる間、我々は任意に大きな確率で状態が安全なセットにとどまることを保証することができることを示しています。
論文 参考訳(メタデータ) (2021-03-02T01:58:02Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Robust Model-Free Learning and Control without Prior Knowledge [1.14219428942199]
本稿では,未知の離散時間線形系を頑健に学習し,安定化するモデルフリー制御アルゴリズムを提案する。
コントローラはシステムダイナミクス、障害、ノイズに関する事前の知識を必要としない。
一般化と簡易性にもかかわらず、制御器はクローズドループ性能がよいことを示すシミュレーション結果で結論を下す。
論文 参考訳(メタデータ) (2020-10-01T05:43:33Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。