論文の概要: Momentum-Based Policy Gradient Methods
- arxiv url: http://arxiv.org/abs/2007.06680v2
- Date: Thu, 6 Aug 2020 13:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 23:49:07.045981
- Title: Momentum-Based Policy Gradient Methods
- Title(参考訳): モメンタムに基づく政策勾配法
- Authors: Feihu Huang, Shangqian Gao, Jian Pei, Heng Huang
- Abstract要約: モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
- 参考スコア(独自算出の注目度): 133.53164856723782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the paper, we propose a class of efficient momentum-based policy gradient
methods for the model-free reinforcement learning, which use adaptive learning
rates and do not require any large batches. Specifically, we propose a fast
important-sampling momentum-based policy gradient (IS-MBPG) method based on a
new momentum-based variance reduced technique and the importance sampling
technique. We also propose a fast Hessian-aided momentum-based policy gradient
(HA-MBPG) method based on the momentum-based variance reduced technique and the
Hessian-aided technique. Moreover, we prove that both the IS-MBPG and HA-MBPG
methods reach the best known sample complexity of $O(\epsilon^{-3})$ for
finding an $\epsilon$-stationary point of the non-concave performance function,
which only require one trajectory at each iteration. In particular, we present
a non-adaptive version of IS-MBPG method, i.e., IS-MBPG*, which also reaches
the best known sample complexity of $O(\epsilon^{-3})$ without any large
batches. In the experiments, we apply four benchmark tasks to demonstrate the
effectiveness of our algorithms.
- Abstract(参考訳): 本稿では,適応学習率を用い,大規模なバッチを必要としないモデルフリー強化学習のための,運動量に基づく効率的な政策勾配手法を提案する。
具体的には、新しいモーメントベース分散低減手法と重要サンプリング手法に基づく、高速な重要サンプリングモーメントベースポリシー勾配(IS-MBPG)手法を提案する。
また,運動量に基づく分散低減手法とヘシアン支援手法に基づいて,高速なヘシアン支援運動量ベース政策勾配(ha-mbpg)法を提案する。
さらに、IS-MBPG法とHA-MBPG法の両方が、各反復で1つの軌道しか必要としない非凹凸性能関数の$\epsilon$-stationary点を求めるために、$O(\epsilon^{-3})$の最もよく知られたサンプル複雑性に達することを証明した。
特に、IS-MBPG法(IS-MBPG*)の非適応版を提示するが、これは大きなバッチを伴わずに$O(\epsilon^{-3})$の最もよく知られたサンプル複雑性に達する。
実験では,アルゴリズムの有効性を示すために4つのベンチマークタスクを適用した。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Adaptive Policy Learning to Additional Tasks [3.43814540650436]
本稿では,事前訓練されたポリシーを調整し,本来のタスクを変更することなく追加タスクに適応するためのポリシー学習手法を開発する。
本稿では,適応政策グラディエント (APG) という手法を提案する。これはベルマンの最適性の原理と,収束率を改善するための政策勾配アプローチを組み合わせたものである。
論文 参考訳(メタデータ) (2023-05-24T14:31:11Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - AdaGDA: Faster Adaptive Gradient Descent Ascent Methods for Minimax
Optimization [104.96004056928474]
本稿では,非コンケーブ最小値問題に対する高速適応勾配降下法を提案する。
我々は,本手法が,ミニバッチサイズが$O(kappa2.5epsilon-3)$のより低いサンプル複雑性に達することを示す。
論文 参考訳(メタデータ) (2021-06-30T14:47:09Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。