論文の概要: Solving Deep Reinforcement Learning Tasks with Evolution Strategies and Linear Policy Networks
- arxiv url: http://arxiv.org/abs/2402.06912v2
- Date: Wed, 24 Jul 2024 17:15:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 19:20:39.433044
- Title: Solving Deep Reinforcement Learning Tasks with Evolution Strategies and Linear Policy Networks
- Title(参考訳): 進化戦略と線形政策ネットワークによる深層強化学習課題の解決
- Authors: Annie Wong, Jacob de Nobel, Thomas Bäck, Aske Plaat, Anna V. Kononova,
- Abstract要約: 本研究では、勾配に基づく深層強化学習法と比較して、進化戦略がどのように機能するかを考察する。
我々は、3つの勾配に基づく手法の観測から行動までの1つの線形層からなるディープポリシーネットワークとネットワークをベンチマークする。
以上の結果から,Evolution Strategies は,多くの強化学習ベンチマークタスクに対して効果的な線形ポリシーを見出すことができることがわかった。
- 参考スコア(独自算出の注目度): 0.017476232824732776
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although deep reinforcement learning methods can learn effective policies for challenging problems such as Atari games and robotics tasks, algorithms are complex, and training times are often long. This study investigates how Evolution Strategies perform compared to gradient-based deep reinforcement learning methods. We use Evolution Strategies to optimize the weights of a neural network via neuroevolution, performing direct policy search. We benchmark both deep policy networks and networks consisting of a single linear layer from observations to actions for three gradient-based methods, such as Proximal Policy Optimization. These methods are evaluated against three classical Evolution Strategies and Augmented Random Search, which all use linear policy networks. Our results reveal that Evolution Strategies can find effective linear policies for many reinforcement learning benchmark tasks, unlike deep reinforcement learning methods that can only find successful policies using much larger networks, suggesting that current benchmarks are easier to solve than previously assumed. Interestingly, Evolution Strategies also achieve results comparable to gradient-based deep reinforcement learning algorithms for higher-complexity tasks. Furthermore, we find that by directly accessing the memory state of the game, Evolution Strategies can find successful policies in Atari that outperform the policies found by Deep Q-Learning. Evolution Strategies also outperform Augmented Random Search in most benchmarks, demonstrating superior sample efficiency and robustness in training linear policy networks.
- Abstract(参考訳): 深層強化学習法は,アタリゲームやロボティクスタスクなどの課題に対して効果的な政策を学習することができるが,アルゴリズムは複雑であり,訓練時間は長いことが多い。
本研究では、勾配に基づく深層強化学習法と比較して、進化戦略がどのように機能するかを考察する。
我々は進化戦略を用いて神経進化を通じてニューラルネットワークの重みを最適化し、直接的なポリシー探索を行う。
我々は,1つの線形層からなるディープポリシーネットワークとネットワークの双方を,近似ポリシ最適化のような3つの勾配に基づく手法の観測から動作までベンチマークする。
これらの手法は3つの古典的進化戦略とAugmented Random Searchに対して評価される。
以上の結果から,多くの強化学習ベンチマークタスクに対して,進化戦略が有効な線形ポリシーを見出すことが可能であることが示唆された。
興味深いことに、Evolution Strategiesはより複雑なタスクのための勾配に基づく深層強化学習アルゴリズムに匹敵する結果を達成している。
さらに、ゲームのメモリ状態に直接アクセスすることで、Evolution Strategiesは、Deep Q-Learningのポリシーより優れたAtariのポリシーを見つけることができる。
Evolution Strategiesは、多くのベンチマークでAugmented Random Searchよりも優れており、線形ポリシーネットワークのトレーニングにおいて、より優れたサンプル効率と堅牢性を示している。
関連論文リスト
- Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Evolutionary Strategy Guided Reinforcement Learning via MultiBuffer
Communication [0.0]
本稿では、進化的戦略と呼ばれる特定の進化的アルゴリズムのファミリーと、非政治的な深層強化学習アルゴリズムTD3を組み合わせた新しい進化的強化学習モデルを提案する。
提案アルゴリズムは,MuJoCo制御タスク上で,現在の進化強化学習アルゴリズムと競合して動作することを示す。
論文 参考訳(メタデータ) (2023-06-20T13:41:57Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution
Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。
NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文 参考訳(メタデータ) (2023-04-21T17:53:05Z) - Discovering Evolution Strategies via Meta-Black-Box Optimization [23.956974467496345]
メタラーニングによる進化戦略の効果的な更新ルールの発見を提案する。
本手法では,自己注意型アーキテクチャによってパラメータ化された探索戦略を用いる。
進化戦略をスクラッチから自己参照的に訓練することは可能であり、学習された更新ルールは外部メタラーニングループを駆動するために使用される。
論文 参考訳(メタデータ) (2022-11-21T08:48:46Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Behavior-based Neuroevolutionary Training in Reinforcement Learning [3.686320043830301]
本稿では,神経進化的最適化と価値に基づく強化学習を組み合わせたハイブリッドアルゴリズムを提案する。
この目的のために,エージェントポリシーの生成と最適化のための異なる手法を統合し,多様な集団を創出する。
その結果, 進化的手法のサンプル効率と学習速度を向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-17T15:40:42Z) - Policy Augmentation: An Exploration Strategy for Faster Convergence of
Deep Reinforcement Learning Algorithms [0.0]
本稿では,政策拡張(Policy Augmentation)と呼ばれる革命的アルゴリズムを紹介する。
ポリシー強化は、新しく開発された帰納的行列補完法に基づいている。
提案アルゴリズムは、探索されていない状態-作用ペアの値を増大させ、エージェントが初期エピソードにいる間、エージェントが高値のリターンをもたらすアクションを行うのを助ける。
論文 参考訳(メタデータ) (2021-02-10T03:51:45Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。