論文の概要: Learning Provably Stabilizing Neural Controllers for Discrete-Time
Stochastic Systems
- arxiv url: http://arxiv.org/abs/2210.05304v2
- Date: Fri, 28 Jul 2023 08:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 16:41:30.545015
- Title: Learning Provably Stabilizing Neural Controllers for Discrete-Time
Stochastic Systems
- Title(参考訳): 離散時間確率システムのための確率安定化型ニューラルコントローラの学習
- Authors: Matin Ansaripour, Krishnendu Chatterjee, Thomas A. Henzinger, Mathias
Lechner, {\DJ}or{\dj}e \v{Z}ikeli\'c
- Abstract要約: 本稿では,SRSM(Stableizing rank Supermartingales)の概念を紹介する。
提案手法は,実証可能な安定化政策の学習に有効であることを示す。
- 参考スコア(独自算出の注目度): 18.349820472823055
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We consider the problem of learning control policies in discrete-time
stochastic systems which guarantee that the system stabilizes within some
specified stabilization region with probability~$1$. Our approach is based on
the novel notion of stabilizing ranking supermartingales (sRSMs) that we
introduce in this work. Our sRSMs overcome the limitation of methods proposed
in previous works whose applicability is restricted to systems in which the
stabilizing region cannot be left once entered under any control policy. We
present a learning procedure that learns a control policy together with an sRSM
that formally certifies probability~$1$ stability, both learned as neural
networks. We show that this procedure can also be adapted to formally verifying
that, under a given Lipschitz continuous control policy, the stochastic system
stabilizes within some stabilizing region with probability~$1$. Our
experimental evaluation shows that our learning procedure can successfully
learn provably stabilizing policies in practice.
- Abstract(参考訳): 確率~1$の確率で特定の安定化領域内で安定化することを保証した離散時間確率系における制御ポリシーの学習問題を考察する。
このアプローチは,本研究で紹介するsrsm(stabilizing ranking supermartingales)という新しい概念に基づいている。
我々のsRSMは、制御ポリシに一度入力した時点で安定化領域を残せないシステムに限定して適用可能な、従来の研究で提案された手法の制限を克服する。
ニューラルネットワークとして学習した確率~1$の安定性を正式に証明する sRSM とともに制御ポリシを学習する学習手順を提案する。
この手順は、与えられたリプシッツ連続制御ポリシーの下で確率=1$の安定化領域内で確率系が安定化することを正式に検証するためにも適用可能であることを示す。
実験により,我々の学習手順は,実際の安定政策を確実に学習できることを示した。
関連論文リスト
- Globally Stable Neural Imitation Policies [3.8772936189143445]
本稿では,形式的安定性を保証するポリシを生成する模倣学習システムであるSNDSを紹介する。
リアプノフの定理に基づく安定性の表現を容易にするニューラルポリシーアーキテクチャをデプロイする。
訓練されたポリシーを現実世界のマニピュレータアームに展開することに成功しました。
論文 参考訳(メタデータ) (2024-03-07T00:20:11Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear
Quadratic Control [85.22735611954694]
我々はトンプソンサンプリング(TS)を用いた安定化可能な線形四元系レギュレータ(LQR)の適応制御問題について検討する。
我々は,LQRの適応制御のための効率的なTSアルゴリズムTSACを提案し,多次元システムであっても,$tilde O(sqrtT)$ regretを実現する。
論文 参考訳(メタデータ) (2022-06-17T02:47:53Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Learning Stabilizing Policies in Stochastic Control Systems [20.045860624444494]
単一学習アルゴリズムを用いて,マーチンゲール証明書と協調してポリシーを学習し,その安定性を証明した。
本研究は, 共同最適化における事前学習の方法として, 修復と検証を成功させるためには, 何らかの形態の事前学習が必要であることを示唆する。
論文 参考訳(メタデータ) (2022-05-24T11:38:22Z) - Stability Verification in Stochastic Control Systems via Neural Network
Supermartingales [17.558766911646263]
2つの新しい側面を持つ一般非線形制御問題に対するアプローチを提案する。
我々は、A.s.asymptotic stabilityの証明にランキング・スーパーガレス(RSM)を使用し、ニューラルネットワークの学習方法を提案する。
論文 参考訳(メタデータ) (2021-12-17T13:05:14Z) - Stabilizing Dynamical Systems via Policy Gradient Methods [32.88312419270879]
完全に観察された力学系を安定化するためのモデルフリーなアルゴリズムを提案する。
本研究では,線形システムの安定化制御を効率よく行うことを証明する。
我々は,共通制御ベンチマークにおけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2021-10-13T00:58:57Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。