論文の概要: Evolutionary Deep Reinforcement Learning Using Elite Buffer: A Novel
Approach Towards DRL Combined with EA in Continuous Control Tasks
- arxiv url: http://arxiv.org/abs/2209.08480v1
- Date: Sun, 18 Sep 2022 05:56:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 16:49:53.077715
- Title: Evolutionary Deep Reinforcement Learning Using Elite Buffer: A Novel
Approach Towards DRL Combined with EA in Continuous Control Tasks
- Title(参考訳): エリートバッファを用いた進化的深層強化学習:連続制御タスクにおけるEAと組み合わせたDRLに向けた新しいアプローチ
- Authors: Marzieh Sadat Esmaeeli, Hamed Malek
- Abstract要約: 本研究の目的は、深層強化学習と進化計算の2つの分野を組み合わせることの効率性を検討することである。
Evolutionary Deep Reinforcement Learning Using Elite Buffer"アルゴリズムは、対話型学習能力と人間の脳における仮説的結果からインスピレーションを得て、新しいメカニズムを導入した。
実験結果によると,提案手法は複雑で次元の大きい環境において,他のよく知られた手法を超越している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the numerous applications and success of deep reinforcement learning
in many control tasks, it still suffers from many crucial problems and
limitations, including temporal credit assignment with sparse reward, absence
of effective exploration, and a brittle convergence that is extremely sensitive
to the hyperparameters of the problem. The problems of deep reinforcement
learning in continuous control, along with the success of evolutionary
algorithms in facing some of these problems, have emerged the idea of
evolutionary reinforcement learning, which attracted many controversies.
Despite successful results in a few studies in this field, a proper and fitting
solution to these problems and their limitations is yet to be presented. The
present study aims to study the efficiency of combining the two fields of deep
reinforcement learning and evolutionary computations further and take a step
towards improving methods and the existing challenges. The "Evolutionary Deep
Reinforcement Learning Using Elite Buffer" algorithm introduced a novel
mechanism through inspiration from interactive learning capability and
hypothetical outcomes in the human brain. In this method, the utilization of
the elite buffer (which is inspired by learning based on experience
generalization in the human mind), along with the existence of crossover and
mutation operators, and interactive learning in successive generations, have
improved efficiency, convergence, and proper advancement in the field of
continuous control. According to the results of experiments, the proposed
method surpasses other well-known methods in environments with high complexity
and dimension and is superior in resolving the mentioned problems and
limitations.
- Abstract(参考訳): 多くの制御タスクにおける深層強化学習の多くの応用と成功にもかかわらず、少額報酬を伴う一時的なクレジット割り当て、効果的な探索の欠如、問題のハイパーパラメーターに非常に敏感な脆性収束など、依然として多くの重要な問題と制限に苦しめられている。
継続的制御における深い強化学習の問題は、これらの問題に直面する進化的アルゴリズムの成功とともに、進化的強化学習という概念が生まれ、多くの議論を呼んだ。
この分野でいくつかの研究が成功したにもかかわらず、これらの問題に対する適切な解法とその制限はまだ提示されていない。
本研究の目的は,深層強化学習と進化的計算の2つの分野を組み合わせることの効率性について検討し,手法と既存の課題を改善するための一歩を踏み出すことである。
Evolutionary Deep Reinforcement Learning Using Elite Buffer"アルゴリズムは、対話型学習能力と人間の脳における仮説的結果からインスピレーションを得て、新しいメカニズムを導入した。
この方法では、クロスオーバーと突然変異演算子の存在とともに、エリートバッファ(人間の心における経験一般化に基づく学習にインスパイアされた)の利用と、連続的な制御の分野における効率性、収束性、適切な進行性を向上させる。
実験結果によると,提案手法は複雑で次元の大きい環境において,他のよく知られた手法を超越し,上記の問題や制限の解決に優れている。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Causal Reinforcement Learning: A Survey [57.368108154871]
強化学習は、不確実性の下でのシーケンシャルな決定問題の解決に不可欠なパラダイムである。
主な障害の1つは、強化学習エージェントが世界に対する根本的な理解を欠いていることである。
因果性は、体系的な方法で知識を形式化できるという点で顕著な利点がある。
論文 参考訳(メタデータ) (2023-07-04T03:00:43Z) - Evolutionary Strategy Guided Reinforcement Learning via MultiBuffer
Communication [0.0]
本稿では、進化的戦略と呼ばれる特定の進化的アルゴリズムのファミリーと、非政治的な深層強化学習アルゴリズムTD3を組み合わせた新しい進化的強化学習モデルを提案する。
提案アルゴリズムは,MuJoCo制御タスク上で,現在の進化強化学習アルゴリズムと競合して動作することを示す。
論文 参考訳(メタデータ) (2023-06-20T13:41:57Z) - Evolutionary Reinforcement Learning: A Survey [31.112066295496003]
強化学習(Reinforcement Learning、RL)は、エージェントが環境とのインタラクションを通じて累積報酬を最大化するように訓練する機械学習アプローチである。
本稿では、進化強化学習(EvoRL)と呼ばれる、ECをRLに統合するための最先端手法に関する総合的な調査を紹介する。
論文 参考訳(メタデータ) (2023-03-07T01:38:42Z) - Assessing Quality-Diversity Neuro-Evolution Algorithms Performance in
Hard Exploration Problems [10.871978893808533]
QD法(Quality-Diversity method)は、高い性能のニッチ生物を生産する自然の能力に触発された進化的アルゴリズムである。
本稿では,探索困難を伴う高次元制御問題を示す3つの候補ベンチマークについて述べる。
私たちはまた、Jaxのオープンソース実装を提供し、実践者が少ない計算リソース上で高速かつ多数の実験を実行できるようにします。
論文 参考訳(メタデータ) (2022-11-24T18:04:12Z) - Deep Causal Learning: Representation, Discovery and Inference [2.696435860368848]
因果学習は、現象の基盤となり、世界が進化するメカニズムを規定する本質的な関係を明らかにする。
従来の因果学習手法は、高次元変数、非構造変数、最適化問題、未観測の共同設立者、選択バイアス、推定不正確さなど、多くの課題や制限に直面している。
ディープ・因果学習はディープ・ニューラルネットワークを活用し、これらの課題に対処するための革新的な洞察と解決策を提供する。
論文 参考訳(メタデータ) (2022-11-07T09:00:33Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Towards sample-efficient episodic control with DAC-ML [0.5735035463793007]
人工知能におけるサンプル効率問題は、少数のエピソードでアクションポリシーを最適化する現在のDeep Reinforcement Learningモデルが存在しないことを指す。
近年の研究では、学習速度を改善するためにメモリシステムとアーキテクチャバイアスを追加することで、この制限を克服しようと試みている。
本稿では、心と脳の分散適応制御(DAC)理論の設計原理を利用して、新しい認知アーキテクチャを構築する。
論文 参考訳(メタデータ) (2020-12-26T16:38:08Z) - Transfer Learning in Deep Reinforcement Learning: A Survey [64.36174156782333]
強化学習は、シーケンシャルな意思決定問題を解決するための学習パラダイムである。
近年、ディープニューラルネットワークの急速な発展により、強化学習の顕著な進歩が見られた。
転校学習は 強化学習が直面する様々な課題に 対処するために生まれました
論文 参考訳(メタデータ) (2020-09-16T18:38:54Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。
マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。
本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文 参考訳(メタデータ) (2020-01-19T06:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。