論文の概要: Stochastic Dimension-reduced Second-order Methods for Policy
Optimization
- arxiv url: http://arxiv.org/abs/2301.12174v1
- Date: Sat, 28 Jan 2023 12:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 18:38:35.408329
- Title: Stochastic Dimension-reduced Second-order Methods for Policy
Optimization
- Title(参考訳): 確率次元還元法による政策最適化法
- Authors: Jinsong Liu, Chenghan Xie, Qi Deng, Dongdong Ge, Yinyu Ye
- Abstract要約: 各イテレーションにおいて勾配とヘシアンベクトル積のみを必要とするポリシー最適化のための新しい2次アルゴリズムを提案する。
具体的には、投影された2次元信頼領域のサブプロブレムを繰り返す次元還元二階法(DR-SOPO)を提案する。
DR-SOPOはおよそ1次定常状態に到達するために$mathcalO(epsilon-3.5)$の複雑さが得られることを示す。
さらに,拡張アルゴリズム (DVR-SOPO) を提案する。
- 参考スコア(独自算出の注目度): 11.19708535159457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose several new stochastic second-order algorithms for
policy optimization that only require gradient and Hessian-vector product in
each iteration, making them computationally efficient and comparable to policy
gradient methods. Specifically, we propose a dimension-reduced second-order
method (DR-SOPO) which repeatedly solves a projected two-dimensional trust
region subproblem. We show that DR-SOPO obtains an
$\mathcal{O}(\epsilon^{-3.5})$ complexity for reaching approximate first-order
stationary condition and certain subspace second-order stationary condition. In
addition, we present an enhanced algorithm (DVR-SOPO) which further improves
the complexity to $\mathcal{O}(\epsilon^{-3})$ based on the variance reduction
technique. Preliminary experiments show that our proposed algorithms perform
favorably compared with stochastic and variance-reduced policy gradient
methods.
- Abstract(参考訳): 本稿では,各イテレーションで勾配とヘッセンベクトルの積のみを必要とする,政策最適化のための確率的2次アルゴリズムをいくつか提案する。
具体的には,投影された二次元信頼領域部分問題を繰り返し解く次元縮小二階法(dr-sopo)を提案する。
近似1次定常条件と部分空間2次定常条件に到達するために、dr-sopo は $\mathcal{o}(\epsilon^{-3.5})$ の複雑性を得る。
さらに, 分散低減法に基づき, 複雑性を$\mathcal{O}(\epsilon^{-3})$に向上させる拡張アルゴリズム(DVR-SOPO)を提案する。
予備実験により,提案アルゴリズムは確率的および分散還元されたポリシー勾配法と比較して好適な性能を示した。
関連論文リスト
- Efficiently Escaping Saddle Points for Non-Convex Policy Optimization [40.0986936439803]
政策勾配(PG)は、拡張性と優れた性能のために強化学習に広く用いられている。
本稿では,ヘッセンベクトル積 (HVP) の形で二階情報を用いた分散還元二階法を提案し,サンプルの複雑さを$tildeO(epsilon-3)$とする近似二階定常点 (SOSP) に収束する。
論文 参考訳(メタデータ) (2023-11-15T12:36:45Z) - A Cubic-regularized Policy Newton Algorithm for Reinforcement Learning [9.628032156001073]
立方正則化を取り入れた2つのポリシーニュートンアルゴリズムを提案する。
どちらのアルゴリズムも確率比法を用いて値関数の勾配とヘシアンを推定する。
特に、我々のアルゴリズムのサンプル複雑さが$epsilon$-SOSPを見つけるのに$O(epsilon-3.5)$であり、これは最先端のサンプル複雑性の$O(epsilon-4.5)$よりも改善されている。
論文 参考訳(メタデータ) (2023-04-21T13:43:06Z) - Stochastic Policy Gradient Methods: Improved Sample Complexity for
Fisher-non-degenerate Policies [19.779044926914704]
我々は、フィッシャー非退化パラメタライズドポリシーの一般クラスに対する改善されたグローバルコンバージェンス保証を開発する。
本研究では,Implicit Gradient Transport (N-PG-IGT) を用いた正規化政策勾配法を提案し,この手法のサンプル複雑性を$tildemathcalO(varepsilon-2.5)$とする。
我々はこの複雑さをさらに改善し、ヘッセン支援再帰政策勾配を考慮し、$tilde MathcalmathcalO (varepsilon-2)$に改善する。
論文 参考訳(メタデータ) (2023-02-03T13:50:23Z) - Fast Computation of Optimal Transport via Entropy-Regularized
Extragradient Methods [98.85583323658366]
2つの分布間の最適な輸送距離の効率的な計算は、様々な応用を促進するアルゴリズムとして機能する。
本稿では,$varepsilon$加法精度で最適な輸送を計算できるスケーラブルな一階最適化法を提案する。
論文 参考訳(メタデータ) (2023-01-30T15:46:39Z) - Explicit Second-Order Min-Max Optimization Methods with Optimal
Convergence Guarantee [96.71652414591051]
本研究では,非制約問題に対するグローバルなサドル点を求めるために,不正確なニュートン型正規化手法を提案し,解析する。
提案アルゴリズムは,有界集合内に留まるイテレートを生成し,制限されたイテレート関数の項で$O(-2/3)$ギャップに収束することを示す。
論文 参考訳(メタデータ) (2022-10-23T21:24:37Z) - DRSOM: A Dimension Reduced Second-Order Method [13.778619250890406]
信頼的な枠組みの下では,2次法の収束を保ちながら,数方向の情報のみを用いる。
理論的には,この手法は局所収束率と大域収束率が$O(epsilon-3/2)$であり,第1次条件と第2次条件を満たすことを示す。
論文 参考訳(メタデータ) (2022-07-30T13:05:01Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Variance-Reduced Off-Policy TDC Learning: Non-Asymptotic Convergence
Analysis [27.679514676804057]
オフ・ポリシー・セッティングにおける2つの時間スケールTDCアルゴリズムの分散化手法を開発した。
実験により,提案した分散還元型TDCは,従来のTDCと分散還元型TDよりも収束誤差が小さいことを示した。
論文 参考訳(メタデータ) (2020-10-26T01:33:05Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z) - Optimal Randomized First-Order Methods for Least-Squares Problems [56.05635751529922]
このアルゴリズムのクラスは、最小二乗問題に対する最も高速な解法のうち、いくつかのランダム化手法を含んでいる。
我々は2つの古典的埋め込み、すなわちガウス射影とアダマール変換のサブサンプリングに焦点を当てる。
得られたアルゴリズムは条件数に依存しない最小二乗問題の解法として最も複雑である。
論文 参考訳(メタデータ) (2020-02-21T17:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。