論文の概要: Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback
- arxiv url: http://arxiv.org/abs/2310.19022v1
- Date: Sun, 29 Oct 2023 14:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 14:47:53.808667
- Title: Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback
- Title(参考訳): 離散時間静的出力フィードバックのためのポリシー勾配法の最適化
- Authors: Jingliang Duan, Jie Li, Xuyang Chen, Kai Zhao, Shengbo Eben Li, Lin
Zhao
- Abstract要約: 本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
- 参考スコア(独自算出の注目度): 22.21598324895312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent times, significant advancements have been made in delving into the
optimization landscape of policy gradient methods for achieving optimal control
in linear time-invariant (LTI) systems. Compared with state-feedback control,
output-feedback control is more prevalent since the underlying state of the
system may not be fully observed in many practical settings. This paper
analyzes the optimization landscape inherent to policy gradient methods when
applied to static output feedback (SOF) control in discrete-time LTI systems
subject to quadratic cost. We begin by establishing crucial properties of the
SOF cost, encompassing coercivity, L-smoothness, and M-Lipschitz continuous
Hessian. Despite the absence of convexity, we leverage these properties to
derive novel findings regarding convergence (and nearly dimension-free rate) to
stationary points for three policy gradient methods, including the vanilla
policy gradient method, the natural policy gradient method, and the
Gauss-Newton method. Moreover, we provide proof that the vanilla policy
gradient method exhibits linear convergence towards local minima when
initialized near such minima. The paper concludes by presenting numerical
examples that validate our theoretical findings. These results not only
characterize the performance of gradient descent for optimizing the SOF problem
but also provide insights into the effectiveness of general policy gradient
methods within the realm of reinforcement learning.
- Abstract(参考訳): 近年,線形時間不変系(LTI)における最適制御を実現するために,政策勾配法の最適化環境を掘り下げる重要な進歩がなされている。
状態フィードバック制御と比較すると、システムの基盤となる状態が多くの実用的な環境で完全には観測できないため、出力フィードバック制御の方が一般的である。
本稿では,2次コストを考慮した離散時間ltiシステムの静的出力フィードバック(sof)制御に適用する場合に,ポリシー勾配法に固有の最適化ランドスケープを分析する。
まず, 強制力, L-smoothness および M-Lipschitz 連続 Hessian を含む SOF コストの重要な特性の確立から始める。
凸性の欠如にもかかわらず,バニラ・ポリシー勾配法,自然政策勾配法,ガウス・ニュートン法などの3つの政策勾配法において,定常点への収束(およびほぼ次元自由度)に関する新たな知見を導出する。
さらに,バニラポリシ勾配法は,そのようなミニマ近傍で初期化される場合,局所ミニマに対して線形収束を示すことを示す。
この論文は、理論的な知見を検証する数値例を提示して結論づける。
これらの結果は,SOF問題を最適化するための勾配降下法の性能を特徴づけるだけでなく,強化学習領域における一般政策勾配法の有効性に関する洞察を与える。
関連論文リスト
- Strongly-polynomial time and validation analysis of policy gradient methods [3.722665817361884]
本稿では,有限状態および行動マルコフ決定過程(MDP)と強化学習(RL)のための,優位ギャップ関数と呼ばれる新しい終了基準を提案する。
この利点ギャップ関数をステップサイズルールの設計に組み込むことで、最適ポリシーの定常状態分布に依存しない新しい線形収束率を導出する。
政策勾配法に対してそのような強い収束特性が確立されたのはこれが初めてである。
論文 参考訳(メタデータ) (2024-09-28T18:56:48Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Mollification Effects of Policy Gradient Methods [16.617678267301702]
政策勾配法が非滑らかな最適化環境をどう動員するかを理解するための厳密な枠組みを開発する。
政策勾配法と逆熱方程式の解法との等価性を実証する。
我々は、この制限と調和解析における不確実性原理の関連性を、RLにおける政策による探索の効果を理解するために作成する。
論文 参考訳(メタデータ) (2024-05-28T05:05:33Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - A Policy Gradient Method for Confounded POMDPs [7.75007282943125]
オフライン環境下での連続状態と観測空間を持つ部分観測可能マルコフ決定過程(POMDP)の整合化のためのポリシー勾配法を提案する。
まず、オフラインデータを用いて、POMDPの履歴依存ポリシー勾配を非パラメトリックに推定するために、新しい識別結果を確立する。
論文 参考訳(メタデータ) (2023-05-26T16:48:05Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。
提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文 参考訳(メタデータ) (2022-01-22T17:44:19Z) - Policy Optimization for Markovian Jump Linear Quadratic Control:
Gradient-Based Methods and Global Convergence [3.3343656101775365]
3種類のポリシー最適化手法が勾配でMJLSの最適状態コントローラに収束していることを示します。コントローラーでは、ジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプ
論文 参考訳(メタデータ) (2020-11-24T02:39:38Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。