論文の概要: Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee
- arxiv url: http://arxiv.org/abs/2011.06882v1
- Date: Fri, 13 Nov 2020 12:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 00:56:19.846734
- Title: Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee
- Title(参考訳): 一様極大有界安定性保証による制約付き動的システムの強化学習制御
- Authors: Minghao Han, Yuan Tian, Lixian Zhang, Jun Wang, Wei Pan
- Abstract要約: 強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
- 参考スコア(独自算出の注目度): 12.368097742148128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is promising for complicated stochastic nonlinear
control problems. Without using a mathematical model, an optimal controller can
be learned from data evaluated by certain performance criteria through
trial-and-error. However, the data-based learning approach is notorious for not
guaranteeing stability, which is the most fundamental property for any control
system. In this paper, the classic Lyapunov's method is explored to analyze the
uniformly ultimate boundedness stability (UUB) solely based on data without
using a mathematical model. It is further shown how RL with UUB guarantee can
be applied to control dynamic systems with safety constraints. Based on the
theoretical results, both off-policy and on-policy learning algorithms are
proposed respectively. As a result, optimal controllers can be learned to
guarantee UUB of the closed-loop system both at convergence and during
learning. The proposed algorithms are evaluated on a series of robotic
continuous control tasks with safety constraints. In comparison with the
existing RL algorithms, the proposed method can achieve superior performance in
terms of maintaining safety. As a qualitative evaluation of stability, our
method shows impressive resilience even in the presence of external
disturbances.
- Abstract(参考訳): 強化学習(RL)は複雑な確率非線形制御問題に対して有望である。
数学的モデルを使用しなければ、試行錯誤によって特定の性能基準で評価されたデータから最適制御器を学習することができる。
しかし、データベースの学習アプローチは、あらゆる制御システムにおいて最も基本的な特性である安定性を保証しないことで悪名高い。
本稿では, 古典的リアプノフ法を用いて, 数学的モデルを用いることなく, データのみに基づいて一様極大境界性安定性(UUB)を解析する。
さらに, 安全性制約を満たした動的システム制御に, uub保証付きrlが適用可能であることを示す。
その結果,オフ・ポリシー学習アルゴリズムとオン・ポリシー学習アルゴリズムがそれぞれ提案されている。
その結果、最適制御器は、収束時と学習中の両方で閉ループシステムのUUBを保証することができる。
提案するアルゴリズムは安全制約のある一連のロボット連続制御タスクで評価される。
既存のrlアルゴリズムと比較して,提案手法は安全性の維持において優れた性能を実現することができる。
安定性の質的評価として,外乱が存在する場合でも印象的な弾力性を示す。
関連論文リスト
- Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Sample-efficient Safe Learning for Online Nonlinear Control with Control
Barrier Functions [35.9713619595494]
強化学習と連続非線形制御は、複雑なシーケンシャルな意思決定タスクの複数の領域にうまく展開されている。
学習過程の探索特性とモデル不確実性の存在を考えると、それらを安全クリティカルな制御タスクに適用することは困難である。
本稿では,オンライン制御タスクを対象とした,効率のよいエピソード型安全な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T00:54:35Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Actor-Critic Reinforcement Learning for Control with Stability Guarantee [9.400585561458712]
強化学習(RL)と深層学習の統合は、様々なロボット制御タスクにおいて印象的なパフォーマンスを達成した。
しかし、データのみを用いることで、モデルフリーなRLでは安定性は保証されない。
本稿では,古典的なリアプノフ法を制御理論に適用することにより,閉ループ安定性を保証できるアクタクリティカルな制御用RLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-29T16:14:30Z) - Neural Lyapunov Model Predictive Control: Learning Safe Global
Controllers from Sub-optimal Examples [4.777323087050061]
多くの実世界の産業アプリケーションでは、例えば人間の操作者による実行など、既存の制御戦略を持つことが典型的である。
この研究の目的は、安全と安定性を維持する新しいコントローラを学習することで、この未知の、安全だが、最適でないポリシーを改善することである。
提案アルゴリズムは、端末コストを学習し、安定性基準に従ってMPCパラメータを更新する。
論文 参考訳(メタデータ) (2020-02-21T16:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。