論文の概要: An Efficient Asynchronous Method for Integrating Evolutionary and
Gradient-based Policy Search
- arxiv url: http://arxiv.org/abs/2012.05417v2
- Date: Wed, 6 Jan 2021 05:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 06:37:26.514202
- Title: An Efficient Asynchronous Method for Integrating Evolutionary and
Gradient-based Policy Search
- Title(参考訳): 進化的および勾配的ポリシー探索の統合のための効率的な非同期手法
- Authors: Kyunghyun Lee, Byeong-Uk Lee, Ukcheol Shin and In So Kweon
- Abstract要約: 本稿では、ESの並列効率を最大化し、ポリシー勾配法と統合する非同期進化戦略強化学習(AES-RL)を提案する。
具体的には、(1)ESとDRLを非同期にマージする新しいフレームワークを提案し、2)非同期、ES、DRLのすべての利点を利用できる様々な非同期更新方法を提案する。
- 参考スコア(独自算出の注目度): 76.73477450555046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) algorithms and evolution strategies (ES)
have been applied to various tasks, showing excellent performances. These have
the opposite properties, with DRL having good sample efficiency and poor
stability, while ES being vice versa. Recently, there have been attempts to
combine these algorithms, but these methods fully rely on synchronous update
scheme, making it not ideal to maximize the benefits of the parallelism in ES.
To solve this challenge, asynchronous update scheme was introduced, which is
capable of good time-efficiency and diverse policy exploration. In this paper,
we introduce an Asynchronous Evolution Strategy-Reinforcement Learning (AES-RL)
that maximizes the parallel efficiency of ES and integrates it with policy
gradient methods. Specifically, we propose 1) a novel framework to merge ES and
DRL asynchronously and 2) various asynchronous update methods that can take all
advantages of asynchronism, ES, and DRL, which are exploration and time
efficiency, stability, and sample efficiency, respectively. The proposed
framework and update methods are evaluated in continuous control benchmark
work, showing superior performance as well as time efficiency compared to the
previous methods.
- Abstract(参考訳): 深部強化学習(DRL)アルゴリズムと進化戦略(ES)は様々なタスクに適用されており、優れた性能を示している。
これらは反対の性質を持ち、DRLはサンプル効率が良く安定性が低い一方、ESは逆である。
近年,これらのアルゴリズムを組み合わせる試みがあるが,これらの手法は同期更新方式に完全に依存しているため,ESにおける並列処理の利点を最大化することは理想的ではない。
この課題を解決するため、非同期更新スキームが導入され、優れた時間効率と多様なポリシー探索が可能になった。
本稿では、ESの並列効率を最大化し、ポリシー勾配法と統合する非同期進化戦略強化学習(AES-RL)を提案する。
具体的には,1) ESとDRLを非同期にマージする新しいフレームワークを提案し,2) 時間効率,安定性,サンプル効率を両立させる非同期更新手法を提案する。
提案するフレームワークと更新手法は連続制御ベンチマーク作業で評価され,従来の手法に比べて性能と時間効率が優れていた。
関連論文リスト
- Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - FADAS: Towards Federated Adaptive Asynchronous Optimization [56.09666452175333]
フェデレートラーニング(FL)は、プライバシ保護機械学習のトレーニングパラダイムとして広く採用されている。
本稿では、非同期更新を適応的フェデレーション最適化と証明可能な保証に組み込む新しい手法であるFADASについて紹介する。
提案アルゴリズムの収束率を厳格に確立し,FADASが他の非同期FLベースラインよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-07-25T20:02:57Z) - AsGrad: A Sharp Unified Analysis of Asynchronous-SGD Algorithms [45.90015262911875]
不均一な環境で分散SGDのための非同期型アルゴリズムを解析する。
また,本分析の副産物として,ランダムなきついSGDのような勾配型アルゴリズムの保証を示す。
論文 参考訳(メタデータ) (2023-10-31T13:44:53Z) - Robust Fully-Asynchronous Methods for Distributed Training over General Architecture [11.480605289411807]
分散機械学習問題における完全な同期は、レイテンシ、パッケージの損失、ストラグラーの存在のため、非効率であり、不可能である。
本稿では,R-FAST (Fully-Asynchronous Gradient Tracking Method) を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:36:40Z) - Straggler-Resilient Decentralized Learning via Adaptive Asynchronous Updates [28.813671194939225]
完全に分散化された最適化手法は、人気のあるパラメータサーバフレームワークに代わるものとして提唱されている。
本稿では、各労働者が通信する近隣労働者の数を適応的に決定することで、適応的な非同期更新を施した完全に分散化されたアルゴリズムを提案する。
DSGD-AAUは収束の線形高速化を実現し,その有効性を示す。
論文 参考訳(メタデータ) (2023-06-11T02:08:59Z) - Progressive extension of reinforcement learning action dimension for
asymmetric assembly tasks [7.4642148614421995]
本稿では,RLアルゴリズムの収束を最適化するために,行動次元の漸進的拡張(PEAD)機構を提案する。
結果は,pead法がrlアルゴリズムのデータ効率と時間効率を向上し,安定した報酬を得ることを示す。
論文 参考訳(メタデータ) (2021-04-06T11:48:54Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - High-Throughput Synchronous Deep RL [132.43861715707905]
HTS-RL(High-Throughput Synchronous Deep Reinforcement Learning)の提案
私たちは同時に学習とロールアウトを行い、古いポリシーを避けるシステム設計を考案します。
我々は,アタリゲームとGoogle Research Football環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-17T18:59:01Z) - EOS: a Parallel, Self-Adaptive, Multi-Population Evolutionary Algorithm
for Constrained Global Optimization [68.8204255655161]
EOSは実数値変数の制約付きおよび制約なし問題に対する大域的最適化アルゴリズムである。
これはよく知られた微分進化(DE)アルゴリズムに多くの改良を加えている。
その結果、EOSisは、最先端の単一人口自己適応Dアルゴリズムと比較して高い性能を達成可能であることが証明された。
論文 参考訳(メタデータ) (2020-07-09T10:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。