論文の概要: Evolutionary Strategy Guided Reinforcement Learning via MultiBuffer
Communication
- arxiv url: http://arxiv.org/abs/2306.11535v1
- Date: Tue, 20 Jun 2023 13:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 14:15:00.344766
- Title: Evolutionary Strategy Guided Reinforcement Learning via MultiBuffer
Communication
- Title(参考訳): マルチバッファ通信による進化戦略誘導強化学習
- Authors: Adam Callaghan, Karl Mason, Patrick Mannion
- Abstract要約: 本稿では、進化的戦略と呼ばれる特定の進化的アルゴリズムのファミリーと、非政治的な深層強化学習アルゴリズムTD3を組み合わせた新しい進化的強化学習モデルを提案する。
提案アルゴリズムは,MuJoCo制御タスク上で,現在の進化強化学習アルゴリズムと競合して動作することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evolutionary Algorithms and Deep Reinforcement Learning have both
successfully solved control problems across a variety of domains. Recently,
algorithms have been proposed which combine these two methods, aiming to
leverage the strengths and mitigate the weaknesses of both approaches. In this
paper we introduce a new Evolutionary Reinforcement Learning model which
combines a particular family of Evolutionary algorithm called Evolutionary
Strategies with the off-policy Deep Reinforcement Learning algorithm TD3. The
framework utilises a multi-buffer system instead of using a single shared
replay buffer. The multi-buffer system allows for the Evolutionary Strategy to
search freely in the search space of policies, without running the risk of
overpopulating the replay buffer with poorly performing trajectories which
limit the number of desirable policy behaviour examples thus negatively
impacting the potential of the Deep Reinforcement Learning within the shared
framework. The proposed algorithm is demonstrated to perform competitively with
current Evolutionary Reinforcement Learning algorithms on MuJoCo control tasks,
outperforming the well known state-of-the-art CEM-RL on 3 of the 4 environments
tested.
- Abstract(参考訳): 進化的アルゴリズムと深層強化学習は、様々な領域にわたる制御問題をうまく解決した。
近年,両手法の強みを活用し,両手法の弱みを軽減すべく,これら2つの手法を組み合わせたアルゴリズムが提案されている。
本稿では,進化戦略と呼ばれる特定の進化的アルゴリズム群とオフポリシー深層強化学習アルゴリズムtd3を組み合わせた新しい進化的強化学習モデルを提案する。
このフレームワークは、単一の共有再生バッファではなく、マルチバッファシステムを利用する。
マルチバッファシステムにより、進化的戦略がポリシーの検索空間内で自由に探索できるようになり、共有フレームワーク内の深層強化学習の可能性に悪影響を及ぼすような望ましい政策行動例の数を制限した粗悪なトラジェクトリでリプレイバッファを過疎化させるリスクを負わない。
提案アルゴリズムは, MuJoCo制御タスクにおける現在の進化強化学習アルゴリズムと競合し, テスト対象4つの環境のうち3つにおいて, 最先端のCEM-RLよりも優れていた。
関連論文リスト
- Solving Deep Reinforcement Learning Tasks with Evolution Strategies and Linear Policy Networks [0.017476232824732776]
本研究では、勾配に基づく深層強化学習法と比較して、進化戦略がどのように機能するかを考察する。
我々は、3つの勾配に基づく手法の観測から行動までの1つの線形層からなるディープポリシーネットワークとネットワークをベンチマークする。
以上の結果から,Evolution Strategies は,多くの強化学習ベンチマークタスクに対して効果的な線形ポリシーを見出すことができることがわかった。
論文 参考訳(メタデータ) (2024-02-10T09:15:21Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical
Multi-Step Approach for Policy Training [4.982806898121435]
本稿では,革新的な多段階統合手法に基づいて,基礎学習者のアンサンブルを訓練する手法を提案する。
本手法は,学習者間コラボレーションを効果的に促進するアンサンブルDRLのための新しい階層学習アルゴリズムの開発を可能にする。
また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-09-29T00:42:44Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。