論文の概要: A RL-based Policy Optimization Method Guided by Adaptive Stability
Certification
- arxiv url: http://arxiv.org/abs/2301.00521v1
- Date: Mon, 2 Jan 2023 04:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 16:15:29.904895
- Title: A RL-based Policy Optimization Method Guided by Adaptive Stability
Certification
- Title(参考訳): 適応安定認証によるrlに基づくポリシー最適化手法
- Authors: Shengjie Wang, Fengbo Lan, Xiang Zheng, Yuxue Cao, Oluwatosin Oseni,
Haotian Xu, Yang Gao, Tao Zhang
- Abstract要約: ポリシとリアプノフ関数を共同で学習することは、最近、システム全体の安定性を保証するための有望なアプローチとなっている。
本稿では,適応安定認証(ASC)を提案する。
提案手法は,従来の研究よりも蓄積コストの低減と安定性制約違反の低減を実現する。
- 参考スコア(独自算出の注目度): 16.38593945974371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contrast to the control-theoretic methods, the lack of stability guarantee
remains a significant problem for model-free reinforcement learning (RL)
methods. Jointly learning a policy and a Lyapunov function has recently become
a promising approach to ensuring the whole system with a stability guarantee.
However, the classical Lyapunov constraints researchers introduced cannot
stabilize the system during the sampling-based optimization. Therefore, we
propose the Adaptive Stability Certification (ASC), making the system reach
sampling-based stability. Because the ASC condition can search for the optimal
policy heuristically, we design the Adaptive Lyapunov-based Actor-Critic (ALAC)
algorithm based on the ASC condition. Meanwhile, our algorithm avoids the
optimization problem that a variety of constraints are coupled into the
objective in current approaches. When evaluated on ten robotic tasks, our
method achieves lower accumulated cost and fewer stability constraint
violations than previous studies.
- Abstract(参考訳): 制御理論とは対照的に、モデルフリー強化学習(RL)法では安定性保証の欠如が大きな問題となっている。
ポリシとリアプノフ関数を共同で学習することは、最近、システム全体の安定性を保証するための有望なアプローチとなっている。
しかし、古典的なリャプノフの制約はサンプリングベース最適化中にシステムを安定化できない。
そこで本研究では,適応安定認証(ASC)を提案する。
ASC条件は最適ポリシーをヒューリスティックに探索できるため,適応型リアプノフに基づくアクター・クリティカル(ALAC)アルゴリズムをASC条件に基づいて設計する。
一方,本アルゴリズムは,様々な制約を現行手法の目的に結合する最適化問題を回避する。
10のロボットタスクで評価すると,従来の研究よりも蓄積コストが低く,安定性の制約違反が少ない。
関連論文リスト
- Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Generalized Proximal Policy Optimization with Sample Reuse [8.325359814939517]
我々は、オン・ポリシー・アルゴリズムの理論的に支持された安定性の利点とオフ・ポリシー・アルゴリズムのサンプル効率を組み合わせる。
我々は、政策改善の保証を開発し、その境界を政策最適化に使用するクリッピング機構に接続する。
これは、我々がGeneralized Proximal Policy Optimization with Sample Reuseと呼ぶ、一般的なアルゴリズムの非政治バージョンを動機付けます。
論文 参考訳(メタデータ) (2021-10-29T20:22:31Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Reinforcement Learning for Adaptive Optimal Stationary Control of Linear
Stochastic Systems [15.410124023805249]
本稿では,加法雑音と乗法雑音を併用した連続時間線形系の最適定常制御について検討する。
楽観的な最小二乗法に基づく反復法則という,非政治強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-16T09:27:02Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z) - Optimistic Distributionally Robust Policy Optimization [2.345728642535161]
Trust Region Policy Optimization (TRPO) と Proximal Policy Optimization (PPO) は、特定のパラメトリック分布クラスにポリシー表現を制限するため、準最適解に収束する傾向にある。
そこで我々は,信頼領域制約最適化問題をパラメータ化せずに解くために,最適分布ロバストポリシ最適化(ODRO)アルゴリズムを開発した。
提案アルゴリズムは, TRPOとPPOを改良し, 学習安定性を確保しつつ, サンプル効率の向上と最終方針の性能向上を実現した。
論文 参考訳(メタデータ) (2020-06-14T06:36:18Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Convergence Guarantees of Policy Optimization Methods for Markovian Jump
Linear Systems [3.3343656101775365]
ガウスニュートン法は, 閉ループ力学を平均的に安定化させる制御器において, 線形速度で MJLS の最適状態フィードバック制御器に収束することを示す。
我々の理論を支持する一例を示す。
論文 参考訳(メタデータ) (2020-02-10T21:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。