論文の概要: Adaptive Momentum-Based Policy Gradient with Second-Order Information
- arxiv url: http://arxiv.org/abs/2205.08253v1
- Date: Tue, 17 May 2022 11:56:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 19:43:19.820651
- Title: Adaptive Momentum-Based Policy Gradient with Second-Order Information
- Title(参考訳): 2次情報を用いた適応モーメント型政策グラディエント
- Authors: Saber Salehkaleybar, Sadegh Khorasani, Negar Kiyavash, Niao He,
Patrick Thiran
- Abstract要約: SGDHess-PGと呼ばれる2次情報を勾配降下に組み込んだ分散化政策勾配法を提案する。
実験により,提案アルゴリズムが様々な制御タスクに対して有効であることと,実際に行われている技術の状況に対する優位性を示す。
- 参考スコア(独自算出の注目度): 42.57892322514601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The variance reduced gradient estimators for policy gradient methods has been
one of the main focus of research in the reinforcement learning in recent years
as they allow acceleration of the estimation process. We propose a variance
reduced policy gradient method, called SGDHess-PG, which incorporates
second-order information into stochastic gradient descent (SGD) using momentum
with an adaptive learning rate. SGDHess-PG algorithm can achieve
$\epsilon$-approximate first-order stationary point with
$\tilde{O}(\epsilon^{-3})$ number of trajectories, while using a batch size of
$O(1)$ at each iteration. Unlike most previous work, our proposed algorithm
does not require importance sampling techniques which can compromise the
advantage of variance reduction process. Our extensive experimental results
show the effectiveness of the proposed algorithm on various control tasks and
its advantage over the state of the art in practice.
- Abstract(参考訳): 政策勾配法における分散低減勾配推定器は,近年の強化学習において,推定過程の加速を可能にするため,研究の中心となっている。
本稿では,2次情報を適応学習率のモーメントを用いて確率勾配降下(SGD)に組み込んだ分散化ポリシ勾配法SGDHess-PGを提案する。
SGDHess-PGアルゴリズムは、各繰り返しで$O(1)$のバッチサイズを使用しながら、$\tilde{O}(\epsilon^{-3})$の軌道数で$\epsilon$-approximate 1次定常点を達成することができる。
従来の手法と異なり,提案アルゴリズムでは,分散還元プロセスの利点を損なうような重要サンプリング技術は必要としない。
実験結果から,提案アルゴリズムが様々な制御タスクに対して有効であることを示すとともに,実際の技術状況に対する優位性を示す。
関連論文リスト
- Efficiently Escaping Saddle Points for Non-Convex Policy Optimization [40.0986936439803]
政策勾配(PG)は、拡張性と優れた性能のために強化学習に広く用いられている。
本稿では,ヘッセンベクトル積 (HVP) の形で二階情報を用いた分散還元二階法を提案し,サンプルの複雑さを$tildeO(epsilon-3)$とする近似二階定常点 (SOSP) に収束する。
論文 参考訳(メタデータ) (2023-11-15T12:36:45Z) - Stochastic Dimension-reduced Second-order Methods for Policy
Optimization [11.19708535159457]
各イテレーションにおいて勾配とヘシアンベクトル積のみを必要とするポリシー最適化のための新しい2次アルゴリズムを提案する。
具体的には、投影された2次元信頼領域のサブプロブレムを繰り返す次元還元二階法(DR-SOPO)を提案する。
DR-SOPOはおよそ1次定常状態に到達するために$mathcalO(epsilon-3.5)$の複雑さが得られることを示す。
さらに,拡張アルゴリズム (DVR-SOPO) を提案する。
論文 参考訳(メタデータ) (2023-01-28T12:09:58Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Smoothed functional-based gradient algorithms for off-policy
reinforcement learning: A non-asymptotic viewpoint [9.734033555407406]
オフポリシ強化学習コンテキストにおける制御の問題を解決するための2つのポリシーグラデーションアルゴリズムを提案する。
どちらのアルゴリズムも、スムース機能(SF)ベースの勾配推定スキームを組み込む。
論文 参考訳(メタデータ) (2021-01-06T17:06:42Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。