論文の概要: Learning Control Policies for Region Stabilization in Stochastic Systems
- arxiv url: http://arxiv.org/abs/2210.05304v1
- Date: Tue, 11 Oct 2022 09:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:53:16.092931
- Title: Learning Control Policies for Region Stabilization in Stochastic Systems
- Title(参考訳): 確率システムにおける領域安定化のための学習制御政策
- Authors: Matin Ansaripour, Mathias Lechner, {\DJ}or{\dj}e \v{Z}ikeli\'c,
Krishnendu Chatterjee, Thomas A. Henzinger
- Abstract要約: 本稿では,確率-$1$の安定性を正式に証明する sRSM とともに制御ポリシを学習する学習手順を提案する。
実験により,本研究の学習手順が,実際に確実に安定化された政策を学習できることが示唆された。
- 参考スコア(独自算出の注目度): 18.349820472823055
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We consider the problem of learning control policies in stochastic systems
which guarantee that the system stabilizes within some specified stabilization
region with probability $1$. Our approach is based on the novel notion of
stabilizing ranking supermartingales (sRSMs) that we introduce in this work.
Our sRSMs overcome the limitation of methods proposed in previous works whose
applicability is restricted to systems in which the stabilizing region cannot
be left once entered under any control policy. We present a learning procedure
that learns a control policy together with an sRSM that formally certifies
probability-$1$ stability, both learned as neural networks. Our experimental
evaluation shows that our learning procedure can successfully learn provably
stabilizing policies in practice.
- Abstract(参考訳): 確率的システムにおいて,特定の安定化領域内を確率1ドルで安定化することを保証する制御ポリシーの学習問題を考察する。
このアプローチは,本研究で紹介するsrsm(stabilizing ranking supermartingales)という新しい概念に基づいている。
我々のsRSMは、制御ポリシに一度入力した時点で安定化領域を残せないシステムに限定して適用可能な、従来の研究で提案された手法の制限を克服する。
本稿では,ニューラルネットワークとして学習した確率-$1$の安定性を正式に証明する sRSM とともに制御ポリシを学習する学習手順を提案する。
実験により,我々の学習手順は,実際の安定政策を確実に学習できることを示した。
関連論文リスト
- Globally Stable Neural Imitation Policies [3.8772936189143445]
本稿では,形式的安定性を保証するポリシを生成する模倣学習システムであるSNDSを紹介する。
リアプノフの定理に基づく安定性の表現を容易にするニューラルポリシーアーキテクチャをデプロイする。
訓練されたポリシーを現実世界のマニピュレータアームに展開することに成功しました。
論文 参考訳(メタデータ) (2024-03-07T00:20:11Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear
Quadratic Control [85.22735611954694]
我々はトンプソンサンプリング(TS)を用いた安定化可能な線形四元系レギュレータ(LQR)の適応制御問題について検討する。
我々は,LQRの適応制御のための効率的なTSアルゴリズムTSACを提案し,多次元システムであっても,$tilde O(sqrtT)$ regretを実現する。
論文 参考訳(メタデータ) (2022-06-17T02:47:53Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Learning Stabilizing Policies in Stochastic Control Systems [20.045860624444494]
単一学習アルゴリズムを用いて,マーチンゲール証明書と協調してポリシーを学習し,その安定性を証明した。
本研究は, 共同最適化における事前学習の方法として, 修復と検証を成功させるためには, 何らかの形態の事前学習が必要であることを示唆する。
論文 参考訳(メタデータ) (2022-05-24T11:38:22Z) - Stability Verification in Stochastic Control Systems via Neural Network
Supermartingales [17.558766911646263]
2つの新しい側面を持つ一般非線形制御問題に対するアプローチを提案する。
我々は、A.s.asymptotic stabilityの証明にランキング・スーパーガレス(RSM)を使用し、ニューラルネットワークの学習方法を提案する。
論文 参考訳(メタデータ) (2021-12-17T13:05:14Z) - Stabilizing Dynamical Systems via Policy Gradient Methods [32.88312419270879]
完全に観察された力学系を安定化するためのモデルフリーなアルゴリズムを提案する。
本研究では,線形システムの安定化制御を効率よく行うことを証明する。
我々は,共通制御ベンチマークにおけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2021-10-13T00:58:57Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。