論文の概要: Neural Lyapunov Model Predictive Control: Learning Safe Global
Controllers from Sub-optimal Examples
- arxiv url: http://arxiv.org/abs/2002.10451v2
- Date: Thu, 3 Jun 2021 14:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 00:25:11.816445
- Title: Neural Lyapunov Model Predictive Control: Learning Safe Global
Controllers from Sub-optimal Examples
- Title(参考訳): ニューラルリアプノフモデル予測制御:準最適例から安全なグローバルコントローラを学習する
- Authors: Mayank Mittal, Marco Gallieri, Alessio Quaglino, Seyed Sina Mirrazavi
Salehian, Jan Koutn\'ik
- Abstract要約: 多くの実世界の産業アプリケーションでは、例えば人間の操作者による実行など、既存の制御戦略を持つことが典型的である。
この研究の目的は、安全と安定性を維持する新しいコントローラを学習することで、この未知の、安全だが、最適でないポリシーを改善することである。
提案アルゴリズムは、端末コストを学習し、安定性基準に従ってMPCパラメータを更新する。
- 参考スコア(独自算出の注目度): 4.777323087050061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With a growing interest in data-driven control techniques, Model Predictive
Control (MPC) provides an opportunity to exploit the surplus of data reliably,
particularly while taking safety and stability into account. In many real-world
and industrial applications, it is typical to have an existing control
strategy, for instance, execution from a human operator. The objective of this
work is to improve upon this unknown, safe but suboptimal policy by learning a
new controller that retains safety and stability. Learning how to be safe is
achieved directly from data and from a knowledge of the system constraints. The
proposed algorithm alternatively learns the terminal cost and updates the MPC
parameters according to a stability metric. The terminal cost is constructed as
a Lyapunov function neural network with the aim of recovering or extending the
stable region of the initial demonstrator using a short prediction horizon.
Theorems that characterize the stability and performance of the learned MPC in
the bearing of model uncertainties and sub-optimality due to function
approximation are presented. The efficacy of the proposed algorithm is
demonstrated on non-linear continuous control tasks with soft constraints. The
proposed approach can improve upon the initial demonstrator also in practice
and achieve better stability than popular reinforcement learning baselines.
- Abstract(参考訳): データ駆動制御技術への関心が高まり、モデル予測制御(MPC)は、特に安全性と安定性を考慮して、データの余剰量を確実に活用する機会を提供する。
多くの実世界および産業アプリケーションでは、例えば人間のオペレータによる実行など、既存の制御戦略を持つのが一般的である。
この研究の目的は、安全と安定性を維持する新しいコントローラを学習することで、未知の、安全だが最適でないポリシーを改善することである。
安全な方法を学ぶことは、データやシステムの制約に関する知識から直接得られる。
提案アルゴリズムは、端末コストを学習し、安定性基準に従ってMPCパラメータを更新する。
端末コストは、短い予測地平線を用いて初期実証機の安定領域を回復または拡張することを目的としたリアプノフ関数ニューラルネットワークとして構成される。
モデル不確実性の軸受における学習したMPCの安定性と性能を特徴付け,関数近似による準最適性を示す。
ソフト制約のある非線形連続制御タスクに対して,提案アルゴリズムの有効性を示す。
提案手法は,初期実証機にも適用でき,一般的な強化学習ベースラインよりも安定性が向上する。
関連論文リスト
- NLBAC: A Neural Ordinary Differential Equations-based Framework for
Stable and Safe Reinforcement Learning [1.683837623246981]
本稿ではまず,RLシステムの安全性と安定性について述べる。
次に、ニューラル常微分方程式に基づくリアプノフ・バリア・アクター・クライブフレームワークを導入する。
このフレームワークでは、拡張ラグランジアン法を用いて、RLベースのコントローラパラメータを更新する。
論文 参考訳(メタデータ) (2024-01-23T23:50:19Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Recursively Feasible Probabilistic Safe Online Learning with Control
Barrier Functions [63.18590014127461]
本稿では,CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
本研究では,ロバストな安全クリティカルコントローラの実現可能性について検討する。
次に、これらの条件を使って、イベントトリガーによるオンラインデータ収集戦略を考案します。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Neural Lyapunov Differentiable Predictive Control [2.042924346801313]
本稿では、確率的リアプノフに基づく安定性保証を備えた微分可能なプログラミングフレームワークを用いた学習に基づく予測制御手法を提案する。
この手法は、安定な力学で状態空間の領域を認証するリアプノフ関数を共同で学習する。
論文 参考訳(メタデータ) (2022-05-22T03:52:27Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Actor-Critic Reinforcement Learning for Control with Stability Guarantee [9.400585561458712]
強化学習(RL)と深層学習の統合は、様々なロボット制御タスクにおいて印象的なパフォーマンスを達成した。
しかし、データのみを用いることで、モデルフリーなRLでは安定性は保証されない。
本稿では,古典的なリアプノフ法を制御理論に適用することにより,閉ループ安定性を保証できるアクタクリティカルな制御用RLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-29T16:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。