論文の概要: Adaptive Momentum-Based Policy Gradient with Second-Order Information
- arxiv url: http://arxiv.org/abs/2205.08253v1
- Date: Tue, 17 May 2022 11:56:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 19:43:19.820651
- Title: Adaptive Momentum-Based Policy Gradient with Second-Order Information
- Title(参考訳): 2次情報を用いた適応モーメント型政策グラディエント
- Authors: Saber Salehkaleybar, Sadegh Khorasani, Negar Kiyavash, Niao He,
Patrick Thiran
- Abstract要約: SGDHess-PGと呼ばれる2次情報を勾配降下に組み込んだ分散化政策勾配法を提案する。
実験により,提案アルゴリズムが様々な制御タスクに対して有効であることと,実際に行われている技術の状況に対する優位性を示す。
- 参考スコア(独自算出の注目度): 42.57892322514601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The variance reduced gradient estimators for policy gradient methods has been
one of the main focus of research in the reinforcement learning in recent years
as they allow acceleration of the estimation process. We propose a variance
reduced policy gradient method, called SGDHess-PG, which incorporates
second-order information into stochastic gradient descent (SGD) using momentum
with an adaptive learning rate. SGDHess-PG algorithm can achieve
$\epsilon$-approximate first-order stationary point with
$\tilde{O}(\epsilon^{-3})$ number of trajectories, while using a batch size of
$O(1)$ at each iteration. Unlike most previous work, our proposed algorithm
does not require importance sampling techniques which can compromise the
advantage of variance reduction process. Our extensive experimental results
show the effectiveness of the proposed algorithm on various control tasks and
its advantage over the state of the art in practice.
- Abstract(参考訳): 政策勾配法における分散低減勾配推定器は,近年の強化学習において,推定過程の加速を可能にするため,研究の中心となっている。
本稿では,2次情報を適応学習率のモーメントを用いて確率勾配降下(SGD)に組み込んだ分散化ポリシ勾配法SGDHess-PGを提案する。
SGDHess-PGアルゴリズムは、各繰り返しで$O(1)$のバッチサイズを使用しながら、$\tilde{O}(\epsilon^{-3})$の軌道数で$\epsilon$-approximate 1次定常点を達成することができる。
従来の手法と異なり,提案アルゴリズムでは,分散還元プロセスの利点を損なうような重要サンプリング技術は必要としない。
実験結果から,提案アルゴリズムが様々な制御タスクに対して有効であることを示すとともに,実際の技術状況に対する優位性を示す。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Efficiently Escaping Saddle Points for Non-Convex Policy Optimization [40.0986936439803]
政策勾配(PG)は、拡張性と優れた性能のために強化学習に広く用いられている。
本稿では,ヘッセンベクトル積 (HVP) の形で二階情報を用いた分散還元二階法を提案し,サンプルの複雑さを$tildeO(epsilon-3)$とする近似二階定常点 (SOSP) に収束する。
論文 参考訳(メタデータ) (2023-11-15T12:36:45Z) - Stochastic Dimension-reduced Second-order Methods for Policy
Optimization [11.19708535159457]
各イテレーションにおいて勾配とヘシアンベクトル積のみを必要とするポリシー最適化のための新しい2次アルゴリズムを提案する。
具体的には、投影された2次元信頼領域のサブプロブレムを繰り返す次元還元二階法(DR-SOPO)を提案する。
DR-SOPOはおよそ1次定常状態に到達するために$mathcalO(epsilon-3.5)$の複雑さが得られることを示す。
さらに,拡張アルゴリズム (DVR-SOPO) を提案する。
論文 参考訳(メタデータ) (2023-01-28T12:09:58Z) - A Two-Time-Scale Stochastic Optimization Framework with Applications in Control and Reinforcement Learning [13.908826484332282]
最適化問題の解法として,新しい2段階勾配法を提案する。
最初の貢献は、提案した2時間スケール勾配アルゴリズムの有限時間複雑性を特徴づけることである。
我々は、強化学習における勾配に基づく政策評価アルゴリズムに適用する。
論文 参考訳(メタデータ) (2021-09-29T23:15:23Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。