論文の概要: Accelerating Reinforcement Learning with a
Directional-Gaussian-Smoothing Evolution Strategy
- arxiv url: http://arxiv.org/abs/2002.09077v1
- Date: Fri, 21 Feb 2020 01:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 00:06:18.561696
- Title: Accelerating Reinforcement Learning with a
Directional-Gaussian-Smoothing Evolution Strategy
- Title(参考訳): 方向性-ガウス-平滑な進化戦略による強化学習の加速
- Authors: Jiaxing Zhang, Hoang Tran, Guannan Zhang
- Abstract要約: 進化戦略 (ES) は多くの困難強化学習 (RL) タスクにおいて大きな期待が持たれている。
現在のESプラクティスには2つの制限があり、そうでなければそのさらなる能力を妨げる可能性がある。
本研究では、DGS-ES(Directional Gaussian Smoothing Evolutionary Strategy)を用いてRL訓練を加速する。
DGS-ESは高いスケーラビリティを持ち、ウォールクロック時間に優れており、他の一般的な政策勾配やESアプローチと競合する報酬スコアが得られることを示す。
- 参考スコア(独自算出の注目度): 3.404507240556492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evolution strategy (ES) has been shown great promise in many challenging
reinforcement learning (RL) tasks, rivaling other state-of-the-art deep RL
methods. Yet, there are two limitations in the current ES practice that may
hinder its otherwise further capabilities. First, most current methods rely on
Monte Carlo type gradient estimators to suggest search direction, where the
policy parameter is, in general, randomly sampled. Due to the low accuracy of
such estimators, the RL training may suffer from slow convergence and require
more iterations to reach optimal solution. Secondly, the landscape of reward
functions can be deceptive and contains many local maxima, causing ES
algorithms to prematurely converge and be unable to explore other parts of the
parameter space with potentially greater rewards. In this work, we employ a
Directional Gaussian Smoothing Evolutionary Strategy (DGS-ES) to accelerate RL
training, which is well-suited to address these two challenges with its ability
to i) provide gradient estimates with high accuracy, and ii) find nonlocal
search direction which lays stress on large-scale variation of the reward
function and disregards local fluctuation. Through several benchmark RL tasks
demonstrated herein, we show that DGS-ES is highly scalable, possesses superior
wall-clock time, and achieves competitive reward scores to other popular policy
gradient and ES approaches.
- Abstract(参考訳): 進化戦略(ES)は多くの挑戦的強化学習(RL)タスクにおいて、最先端の深層RL手法に匹敵する大きな可能性を示されてきた。
しかし、現在のesプラクティスには2つの制限があり、それ以上の機能を妨げる可能性がある。
第一に、現在のほとんどの手法はモンテカルロ型勾配推定器を頼りに、ポリシーパラメータが一般にランダムにサンプリングされる探索方向を提案する。
このような推定器の精度が低いため、rlトレーニングは収束が遅く、最適な解に到達するのにより多くのイテレーションが必要となる。
第二に、報酬関数のランドスケープは多くの局所最大値を含み、ESアルゴリズムは早めに収束し、潜在的に大きな報酬を持つパラメータ空間の他の部分を調べることができない。
本研究では,方向性ガウス型平滑化進化戦略(dgs-es)を用いてrlトレーニングを高速化する。
一 高い精度で勾配推定を行い、
二 報酬関数の大規模変動にストレスを与える非局所探索方向を見つけ、局所変動を無視する。
ここでは,DGS-ESが高度にスケーラブルであり,ウォールクロック時間に優れ,他の一般的な政策勾配やESアプローチと競合する報酬スコアが得られることを示す。
関連論文リスト
- On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-10-18T06:34:52Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Soft policy optimization using dual-track advantage estimator [5.4020749513539235]
本稿では, エントロピーを導入し, 温度係数を動的に設定し, 探索と利用の機会のバランスをとる。
本稿では、値関数の収束を加速し、さらにアルゴリズムの性能を高めるために、二トラック利便推定器(DTAE)を提案する。
ムジョコ環境における他のオンラインRLアルゴリズムと比較して,提案手法は累積回帰において最も高度な結果が得られる。
論文 参考訳(メタデータ) (2020-09-15T04:09:29Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。