論文の概要: EVO-RL: Evolutionary-Driven Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.04725v2
- Date: Fri, 10 Jul 2020 16:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:06:37.801484
- Title: EVO-RL: Evolutionary-Driven Reinforcement Learning
- Title(参考訳): EVO-RL:進化型強化学習
- Authors: Ahmed Hallawa, Thorsten Born, Anke Schmeink, Guido Dartmann, Arne
Peine, Lukas Martin, Giovanni Iacca, A. E. Eiben, Gerd Ascheid
- Abstract要約: 進化的計算によって駆動される強化学習のための新しい手法を提案する。
進化駆動強化学習(evo-RL)と呼ばれる我々のアルゴリズムは、強化学習アルゴリズムを進化サイクルに組み込む。
その結果,evo-RLアプローチに埋め込まれた強化学習アルゴリズムは,OpenAI Gym上で同じRLアルゴリズムのスタンドアロンバージョンよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 11.93391780461501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a novel approach for reinforcement learning driven
by evolutionary computation. Our algorithm, dubbed as Evolutionary-Driven
Reinforcement Learning (evo-RL), embeds the reinforcement learning algorithm in
an evolutionary cycle, where we distinctly differentiate between purely
evolvable (instinctive) behaviour versus purely learnable behaviour.
Furthermore, we propose that this distinction is decided by the evolutionary
process, thus allowing evo-RL to be adaptive to different environments. In
addition, evo-RL facilitates learning on environments with rewardless states,
which makes it more suited for real-world problems with incomplete information.
To show that evo-RL leads to state-of-the-art performance, we present the
performance of different state-of-the-art reinforcement learning algorithms
when operating within evo-RL and compare it with the case when these same
algorithms are executed independently. Results show that reinforcement learning
algorithms embedded within our evo-RL approach significantly outperform the
stand-alone versions of the same RL algorithms on OpenAI Gym control problems
with rewardless states constrained by the same computational budget.
- Abstract(参考訳): 本研究では,進化計算による強化学習のための新しい手法を提案する。
進化駆動強化学習(evo-RL)と呼ばれる我々のアルゴリズムは、強化学習アルゴリズムを進化サイクルに組み込み、純粋に進化可能な(本能的な)行動と純粋に学習可能な行動とを明確に区別する。
さらに、この区別は進化過程によって決定され、エボ-RLは異なる環境に適応可能であることを提案する。
さらに、evo-RLは報酬のない状態の環境での学習を容易にするため、不完全な情報を持つ現実世界の問題により適している。
evo-RLが最先端性能をもたらすことを示すため、evo-RL内で動作している場合、異なる最先端強化学習アルゴリズムの性能を示し、同じアルゴリズムが独立に実行される場合と比較する。
その結果,Evo-RL手法に埋め込まれた強化学習アルゴリズムは,同じ計算予算で制約された無報酬状態を持つOpenAI Gym制御問題において,同一のRLアルゴリズムのスタンドアロンバージョンよりも有意に優れていた。
関連論文リスト
- Evolutionary Reinforcement Learning: A Systematic Review and Future
Directions [18.631418642768132]
進化強化学習(EvoRL)は、複雑な問題解決における強化学習と進化アルゴリズム(EA)の限界に対する解決策である。
EvoRLはEAと強化学習を統合し、知的エージェントを訓練するための有望な道を提供する。
この体系的なレビューは、EvoRLの現状に関する洞察を提供し、人工知能の進化を続ける風景において、その能力を向上させるためのガイドを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:07:57Z) - DARLEI: Deep Accelerated Reinforcement Learning with Evolutionary
Intelligence [77.78795329701367]
本稿では,進化アルゴリズムと並列化強化学習を組み合わせたフレームワークであるDARLEIを提案する。
我々はDARLEIの性能を様々な条件で特徴付け、進化形態の多様性に影響を与える要因を明らかにした。
今後DARLEIを拡張して、よりリッチな環境における多様な形態素間の相互作用を取り入れていきたいと考えています。
論文 参考訳(メタデータ) (2023-12-08T16:51:10Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Supplementing Gradient-Based Reinforcement Learning with Simple
Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。
この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文 参考訳(メタデータ) (2023-05-10T09:46:53Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。
実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。
本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。
このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文 参考訳(メタデータ) (2020-04-24T15:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。