論文の概要: Actor-Critic Reinforcement Learning for Control with Stability Guarantee
- arxiv url: http://arxiv.org/abs/2004.14288v3
- Date: Wed, 15 Jul 2020 15:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 14:46:21.850965
- Title: Actor-Critic Reinforcement Learning for Control with Stability Guarantee
- Title(参考訳): 安定保証制御のためのアクタ・クリティカル強化学習
- Authors: Minghao Han, Lixian Zhang, Jun Wang, Wei Pan
- Abstract要約: 強化学習(RL)と深層学習の統合は、様々なロボット制御タスクにおいて印象的なパフォーマンスを達成した。
しかし、データのみを用いることで、モデルフリーなRLでは安定性は保証されない。
本稿では,古典的なリアプノフ法を制御理論に適用することにより,閉ループ安定性を保証できるアクタクリティカルな制御用RLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.400585561458712
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning (RL) and its integration with deep learning have
achieved impressive performance in various robotic control tasks, ranging from
motion planning and navigation to end-to-end visual manipulation. However,
stability is not guaranteed in model-free RL by solely using data. From a
control-theoretic perspective, stability is the most important property for any
control system, since it is closely related to safety, robustness, and
reliability of robotic systems. In this paper, we propose an actor-critic RL
framework for control which can guarantee closed-loop stability by employing
the classic Lyapunov's method in control theory. First of all, a data-based
stability theorem is proposed for stochastic nonlinear systems modeled by
Markov decision process. Then we show that the stability condition could be
exploited as the critic in the actor-critic RL to learn a controller/policy. At
last, the effectiveness of our approach is evaluated on several well-known
3-dimensional robot control tasks and a synthetic biology gene network tracking
task in three different popular physics simulation platforms. As an empirical
evaluation on the advantage of stability, we show that the learned policies can
enable the systems to recover to the equilibrium or way-points when interfered
by uncertainties such as system parametric variations and external disturbances
to a certain extent.
- Abstract(参考訳): 強化学習(rl)とそのディープラーニングとの統合は、動作計画やナビゲーションからエンドツーエンドの視覚操作に至るまで、さまざまなロボット制御タスクで印象的なパフォーマンスを達成している。
しかし、データのみを用いることで、モデルフリーなRLでは安定性は保証されない。
制御理論の観点からは、安定性はロボットシステムの安全性、堅牢性、信頼性に密接に関係しているため、制御システムにとって最も重要な特性である。
本稿では,古典的なリアプノフ法を制御理論に適用することにより,閉ループ安定性を保証できるアクタクリティカルな制御用RLフレームワークを提案する。
まず,マルコフ決定過程をモデルとした確率非線形システムに対して,データに基づく安定性定理を提案する。
そして,この安定性条件をアクタ批判的RLの批判者として活用して,コントローラ/政治を学ぶことを示す。
最後に, 3種類の物理シミュレーションプラットフォームにおいて, 3次元ロボット制御タスクと合成生物学遺伝子ネットワーク追跡タスクにおいて, 本手法の有効性が評価された。
安定性の利点に関する実証的な評価として,システムパラメトリックな変動や外乱などの不確実性に干渉された場合,学習したポリシが平衡点や経路点にある程度回復可能であることを示す。
関連論文リスト
- Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Learning Stability Attention in Vision-based End-to-end Driving Policies [100.57791628642624]
本稿では, 制御型リアプノフ関数(CLF)を利用して, エンドツーエンドのビジョンベースのポリシに安定性を付与する手法を提案する。
本稿では,att-CLFに密に統合された不確実性伝播手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T20:31:10Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Robust Stability of Neural-Network Controlled Nonlinear Systems with
Parametric Variability [2.0199917525888895]
ニューラルネットワーク制御非線形システムの安定性と安定化性の理論を考案する。
このような頑健な安定化NNコントローラの計算には、安定性保証トレーニング(SGT)も提案されている。
論文 参考訳(メタデータ) (2021-09-13T05:09:30Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z) - Neural Lyapunov Redesign [36.2939747271983]
学習コントローラは、エージェントや環境に害を与えないように、何らかの安全の概念を保証しなければなりません。
リアプノフ関数は非線形力学系の安定性を評価する効果的なツールである。
本稿では,リアプノフ関数の推定と,安定領域を徐々に拡大する制御器の導出を交互に行う2プレーヤ協調アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-06T19:22:20Z) - Neural Lyapunov Model Predictive Control: Learning Safe Global
Controllers from Sub-optimal Examples [4.777323087050061]
多くの実世界の産業アプリケーションでは、例えば人間の操作者による実行など、既存の制御戦略を持つことが典型的である。
この研究の目的は、安全と安定性を維持する新しいコントローラを学習することで、この未知の、安全だが、最適でないポリシーを改善することである。
提案アルゴリズムは、端末コストを学習し、安定性基準に従ってMPCパラメータを更新する。
論文 参考訳(メタデータ) (2020-02-21T16:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。