論文の概要: Fast Stochastic Policy Gradient: Negative Momentum for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.12228v1
- Date: Wed, 8 May 2024 03:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 03:08:05.113821
- Title: Fast Stochastic Policy Gradient: Negative Momentum for Reinforcement Learning
- Title(参考訳): 高速確率的政策グラディエント:強化学習のための負のモメンタム
- Authors: Haobin Zhang, Zhuang Yang,
- Abstract要約: この研究は、運動量を利用する観点から、高速ポリシー勾配(SPG)アルゴリズムを開発する。
具体的には、SPG-NMにおいて、古典的なSPGアルゴリズムに新しいタイプの負運動量(NM)技術を適用する。
帯域設定とマルコフ決定過程(MDP)という2つの古典的課題における結果のアルゴリズムの評価を行う。
- 参考スコア(独自算出の注目度): 10.865448640073911
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Stochastic optimization algorithms, particularly stochastic policy gradient (SPG), report significant success in reinforcement learning (RL). Nevertheless, up to now, that how to speedily acquire an optimal solution for RL is still a challenge. To tackle this issue, this work develops a fast SPG algorithm from the perspective of utilizing a momentum, coined SPG-NM. Specifically, in SPG-NM, a novel type of the negative momentum (NM) technique is applied into the classical SPG algorithm. Different from the existing NM techniques, we have adopted a few hyper-parameters in our SPG-NM algorithm. Moreover, the computational complexity is nearly same as the modern SPG-type algorithms, e.g., accelerated policy gradient (APG), which equips SPG with Nesterov's accelerated gradient (NAG). We evaluate the resulting algorithm on two classical tasks, bandit setting and Markov decision process (MDP). Numerical results in different tasks demonstrate faster convergence rate of the resulting algorithm by comparing state-of-the-art algorithms, which confirm the positive impact of NM in accelerating SPG for RL. Also, numerical experiments under different settings confirm the robustness of our SPG-NM algorithm for some certain crucial hyper-parameters, which ride the user feel free in practice.
- Abstract(参考訳): 確率的最適化アルゴリズム、特に確率的ポリシー勾配(SPG)は、強化学習(RL)において大きな成功を報告している。
しかし、これまでのところ、RLの最適解を迅速に取得する方法は依然として課題である。
この問題に対処するため,SPG-NMと呼ばれる運動量を利用する観点から,高速なSPGアルゴリズムを開発した。
具体的には、SPG-NMにおいて、古典的なSPGアルゴリズムに新しいタイプの負運動量(NM)技術を適用する。
既存のNM技術と異なり、SPG-NMアルゴリズムにはいくつかのハイパーパラメータが採用されている。
さらに、計算複雑性は、現在のSPG型アルゴリズム、例えば、Nesterovの加速勾配(NAG)とSPGを装備する加速ポリシー勾配(APG)とほぼ同じである。
提案手法は,帯域設定とマルコフ決定過程(MDP)の2つの古典的課題に対して評価する。
異なるタスクにおける数値的な結果は、RL の SPG 加速における NM の正の影響を確認する最先端のアルゴリズムを比較することにより、結果アルゴリズムの収束速度を高速化する。
また、異なる設定下での数値実験により、ある重要なハイパーパラメーターに対するSPG-NMアルゴリズムの頑健さが証明され、実際に利用者が自由に感じるようになる。
関連論文リスト
- SHS: Scorpion Hunting Strategy Swarm Algorithm [2.9863148950750737]
我々は,Scorpion Hunting Strategy (SHS)を紹介した。
この研究は、厳密なベンチマークと現実世界の問題解決シナリオを通じて、その有効性と汎用性を裏付けるものである。
論文 参考訳(メタデータ) (2024-07-19T10:58:42Z) - Quantum Inspired Chaotic Salp Swarm Optimization for Dynamic Optimization [4.44483539967295]
我々は量子コンピューティングの原理を統合するQSSOとして知られるSSAの変種について研究する。
カオス演算子は、変化への対応と個々の検索可能性の向上を保証するために量子コンピューティングで使用される。
約束通り、導入されたQCSSOは、DOPのライバルアルゴリズムとして発見される。
論文 参考訳(メタデータ) (2024-01-21T02:59:37Z) - Genetically Modified Wolf Optimization with Stochastic Gradient Descent
for Optimising Deep Neural Networks [0.0]
本研究の目的は、人口ベースメタヒューリスティックアルゴリズムを用いて、ニューラルネットワーク(NN)重み付けを最適化するための代替アプローチを分析することである。
Grey Wolf (GWO) と Genetic Modified Algorithms (GA) のハイブリッドをグラディエント・Descent (SGD) と組み合わせて検討した。
このアルゴリズムは、高次元性の問題にも対処しながら、エクスプロイトと探索の組み合わせを可能にする。
論文 参考訳(メタデータ) (2023-01-21T13:22:09Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-31T16:08:06Z) - Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文 参考訳(メタデータ) (2020-07-13T20:44:15Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。