論文の概要: Learning Stabilizing Policies in Stochastic Control Systems
- arxiv url: http://arxiv.org/abs/2205.11991v1
- Date: Tue, 24 May 2022 11:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 15:19:09.706831
- Title: Learning Stabilizing Policies in Stochastic Control Systems
- Title(参考訳): 確率制御系における学習安定化政策
- Authors: {\DJ}or{\dj}e \v{Z}ikeli\'c, Mathias Lechner, Krishnendu Chatterjee,
Thomas A. Henzinger
- Abstract要約: 単一学習アルゴリズムを用いて,マーチンゲール証明書と協調してポリシーを学習し,その安定性を証明した。
本研究は, 共同最適化における事前学習の方法として, 修復と検証を成功させるためには, 何らかの形態の事前学習が必要であることを示唆する。
- 参考スコア(独自算出の注目度): 20.045860624444494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the problem of learning provably stable neural
network policies for stochastic control systems. While recent work has
demonstrated the feasibility of certifying given policies using martingale
theory, the problem of how to learn such policies is little explored. Here, we
study the effectiveness of jointly learning a policy together with a martingale
certificate that proves its stability using a single learning algorithm. We
observe that the joint optimization problem becomes easily stuck in local
minima when starting from a randomly initialized policy. Our results suggest
that some form of pre-training of the policy is required for the joint
optimization to repair and verify the policy successfully.
- Abstract(参考訳): 本研究では,確率的制御系に対する確率的に安定なニューラルネットワークポリシーを学習する問題に対処する。
近年の研究では、マルティンゲール理論を用いて与えられた政策を検証できることが実証されているが、その政策をどのように学ぶかという問題はほとんど解明されていない。
本稿では,単一学習アルゴリズムを用いて,その安定性を証明するマルティンゲール証明書と共同でポリシを学習することの有効性について検討する。
我々は,ランダム初期化ポリシーから始めると,局所的最小化問題に局所的最小化が容易になることを示す。
以上の結果から,政策の修正と検証を成功させるためには,政策の事前学習の何らかの形態が必要であることが示唆された。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Globally Stable Neural Imitation Policies [3.8772936189143445]
本稿では,形式的安定性を保証するポリシを生成する模倣学習システムであるSNDSを紹介する。
リアプノフの定理に基づく安定性の表現を容易にするニューラルポリシーアーキテクチャをデプロイする。
訓練されたポリシーを現実世界のマニピュレータアームに展開することに成功しました。
論文 参考訳(メタデータ) (2024-03-07T00:20:11Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Learning Provably Stabilizing Neural Controllers for Discrete-Time
Stochastic Systems [18.349820472823055]
本稿では,SRSM(Stableizing rank Supermartingales)の概念を紹介する。
提案手法は,実証可能な安定化政策の学習に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-11T09:55:07Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Understanding Curriculum Learning in Policy Optimization for Online
Combinatorial Optimization [66.35750142827898]
本稿では,オンラインCO問題に対するポリシー最適化手法に関する最初の体系的研究について述べる。
我々は、オンラインCO問題は、潜在マルコフ決定過程(LMDP)として自然に定式化でき、自然政策勾配(NPG)に収束することを示す。
さらに,本理論はカリキュラム学習の利点を解説し,強力なサンプリングポリシーを見出すことができ,流通シフトを低減できることを示した。
論文 参考訳(メタデータ) (2022-02-11T03:17:15Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Cautious Policy Programming: Exploiting KL Regularization in Monotonic
Policy Improvement for Reinforcement Learning [11.82492300303637]
本稿では,学習中の単調な政策改善を確実にする,新しい値ベース強化学習(RL)アルゴリズムを提案する。
提案アルゴリズムは,古典的操作問題と高次元アタリゲームの両方において,性能と安定性を両立させることができることを示す。
論文 参考訳(メタデータ) (2021-07-13T01:03:10Z) - On Imitation Learning of Linear Control Policies: Enforcing Stability
and Robustness Constraints via LMI Conditions [3.296303220677533]
線形ポリシーの模倣学習を制約付き最適化問題として定式化する。
線形行列不等式 (lmi) の制約を適合ポリシーに適用することで閉ループ安定性とロバスト性が保証できることを示す。
論文 参考訳(メタデータ) (2021-03-24T02:43:03Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Runtime-Safety-Guided Policy Repair [13.038017178545728]
安全クリティカルな環境下での学習型制御政策におけるポリシー修復の問題点について検討する。
本稿では,安全コントローラが作成したランタイムデータに基づいて,トレーニング済みポリシーを修復することで,制御スイッチングを低減あるいは排除することを提案する。
論文 参考訳(メタデータ) (2020-08-17T23:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。