論文の概要: Neural Lyapunov Model Predictive Control: Learning Safe Global
Controllers from Sub-optimal Examples
- arxiv url: http://arxiv.org/abs/2002.10451v2
- Date: Thu, 3 Jun 2021 14:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 00:25:11.816445
- Title: Neural Lyapunov Model Predictive Control: Learning Safe Global
Controllers from Sub-optimal Examples
- Title(参考訳): ニューラルリアプノフモデル予測制御:準最適例から安全なグローバルコントローラを学習する
- Authors: Mayank Mittal, Marco Gallieri, Alessio Quaglino, Seyed Sina Mirrazavi
Salehian, Jan Koutn\'ik
- Abstract要約: 多くの実世界の産業アプリケーションでは、例えば人間の操作者による実行など、既存の制御戦略を持つことが典型的である。
この研究の目的は、安全と安定性を維持する新しいコントローラを学習することで、この未知の、安全だが、最適でないポリシーを改善することである。
提案アルゴリズムは、端末コストを学習し、安定性基準に従ってMPCパラメータを更新する。
- 参考スコア(独自算出の注目度): 4.777323087050061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With a growing interest in data-driven control techniques, Model Predictive
Control (MPC) provides an opportunity to exploit the surplus of data reliably,
particularly while taking safety and stability into account. In many real-world
and industrial applications, it is typical to have an existing control
strategy, for instance, execution from a human operator. The objective of this
work is to improve upon this unknown, safe but suboptimal policy by learning a
new controller that retains safety and stability. Learning how to be safe is
achieved directly from data and from a knowledge of the system constraints. The
proposed algorithm alternatively learns the terminal cost and updates the MPC
parameters according to a stability metric. The terminal cost is constructed as
a Lyapunov function neural network with the aim of recovering or extending the
stable region of the initial demonstrator using a short prediction horizon.
Theorems that characterize the stability and performance of the learned MPC in
the bearing of model uncertainties and sub-optimality due to function
approximation are presented. The efficacy of the proposed algorithm is
demonstrated on non-linear continuous control tasks with soft constraints. The
proposed approach can improve upon the initial demonstrator also in practice
and achieve better stability than popular reinforcement learning baselines.
- Abstract(参考訳): データ駆動制御技術への関心が高まり、モデル予測制御(MPC)は、特に安全性と安定性を考慮して、データの余剰量を確実に活用する機会を提供する。
多くの実世界および産業アプリケーションでは、例えば人間のオペレータによる実行など、既存の制御戦略を持つのが一般的である。
この研究の目的は、安全と安定性を維持する新しいコントローラを学習することで、未知の、安全だが最適でないポリシーを改善することである。
安全な方法を学ぶことは、データやシステムの制約に関する知識から直接得られる。
提案アルゴリズムは、端末コストを学習し、安定性基準に従ってMPCパラメータを更新する。
端末コストは、短い予測地平線を用いて初期実証機の安定領域を回復または拡張することを目的としたリアプノフ関数ニューラルネットワークとして構成される。
モデル不確実性の軸受における学習したMPCの安定性と性能を特徴付け,関数近似による準最適性を示す。
ソフト制約のある非線形連続制御タスクに対して,提案アルゴリズムの有効性を示す。
提案手法は,初期実証機にも適用でき,一般的な強化学習ベースラインよりも安定性が向上する。
関連論文リスト
- Safe and Stable Closed-Loop Learning for Neural-Network-Supported Model Predictive Control [0.0]
基礎となるプロセスについて不完全な情報で操作するパラメタライズド予測コントローラの安全な学習について検討する。
本手法は, クローズドループにおけるシステム全体の長期的性能を安全かつ安定に保ちながら重視する。
ベイズ最適化に基づく学習手法に安定性情報を明示的に組み込むことにより,厳密な確率論的安全保証を実現する。
論文 参考訳(メタデータ) (2024-09-16T11:03:58Z) - Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Actor-Critic Reinforcement Learning for Control with Stability Guarantee [9.400585561458712]
強化学習(RL)と深層学習の統合は、様々なロボット制御タスクにおいて印象的なパフォーマンスを達成した。
しかし、データのみを用いることで、モデルフリーなRLでは安定性は保証されない。
本稿では,古典的なリアプノフ法を制御理論に適用することにより,閉ループ安定性を保証できるアクタクリティカルな制御用RLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-29T16:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。