論文の概要: Evolving Populations of Diverse RL Agents with MAP-Elites
- arxiv url: http://arxiv.org/abs/2303.12803v1
- Date: Thu, 9 Mar 2023 19:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 02:41:38.306106
- Title: Evolving Populations of Diverse RL Agents with MAP-Elites
- Title(参考訳): MAP-エリートを用いたRL多剤の集団発生
- Authors: Thomas Pierrot and Arthur Flajolet
- Abstract要約: 政策だけでなく,任意の強化学習(RL)アルゴリズムの利用を可能にするフレキシブルなフレームワークを導入する。
我々は,多数のロボット制御問題に対する広範な数値実験を通じて,我々のフレームワークがもたらすメリットを実証する。
- 参考スコア(独自算出の注目度): 1.5575376673936223
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Quality Diversity (QD) has emerged as a powerful alternative optimization
paradigm that aims at generating large and diverse collections of solutions,
notably with its flagship algorithm MAP-ELITES (ME) which evolves solutions
through mutations and crossovers. While very effective for some unstructured
problems, early ME implementations relied exclusively on random search to
evolve the population of solutions, rendering them notoriously
sample-inefficient for high-dimensional problems, such as when evolving neural
networks. Follow-up works considered exploiting gradient information to guide
the search in order to address these shortcomings through techniques borrowed
from either Black-Box Optimization (BBO) or Reinforcement Learning (RL). While
mixing RL techniques with ME unlocked state-of-the-art performance for robotics
control problems that require a good amount of exploration, it also plagued
these ME variants with limitations common among RL algorithms that ME was free
of, such as hyperparameter sensitivity, high stochasticity as well as training
instability, including when the population size increases as some components
are shared across the population in recent approaches. Furthermore, existing
approaches mixing ME with RL tend to be tied to a specific RL algorithm, which
effectively prevents their use on problems where the corresponding RL algorithm
fails. To address these shortcomings, we introduce a flexible framework that
allows the use of any RL algorithm and alleviates the aforementioned
limitations by evolving populations of agents (whose definition include
hyperparameters and all learnable parameters) instead of just policies. We
demonstrate the benefits brought about by our framework through extensive
numerical experiments on a number of robotics control problems, some of which
with deceptive rewards, taken from the QD-RL literature.
- Abstract(参考訳): 品質多様性(qd)は、大規模で多様なソリューションコレクションを生成することを目的とした強力な代替最適化パラダイムとして登場した。
初期のME実装は、いくつかの非構造的な問題に対して非常に効果的であったが、ソリューションの集団を進化させるためにランダム検索にのみ依存しており、ニューラルネットワークの進化など、高次元問題に対するサンプル非効率が悪名高い。
フォローアップは、ブラックボックス最適化(bbo)または強化学習(rl)から借用された技術を通してこれらの欠点に対処するために、勾配情報を利用して探索を導くことを検討する。
高度な探索を必要とするロボット制御問題の解き放たれた状態性能とRLテクニックを混合する一方で、近年のアプローチでは、一部のコンポーネントが人口間で共有されるにつれて、MEが過度なパラメータ感度、高い確率性、およびトレーニング不安定性など、RLアルゴリズムに共通する制限を伴って、これらのME変種を悩ませた。
さらに、MEとRLを混合する既存のアプローチは、特定のRLアルゴリズムと結びつく傾向にあり、対応するRLアルゴリズムが失敗する問題に対するそれらの使用を効果的に防止する。
これらの欠点に対処するために、我々は任意のRLアルゴリズムの使用を可能にするフレキシブルなフレームワークを導入し、単にポリシーではなく、エージェントの個体群(ハイパーパラメータと全ての学習可能なパラメータを含む)を進化させることにより、上記の制限を緩和する。
本研究は,ロボット工学の制御問題に対する広範囲な数値実験を通じて,我々のフレームワークがもたらした利点を実証する。
関連論文リスト
- Hyperparameter Optimization for Multi-Objective Reinforcement Learning [0.27309692684728615]
強化学習(Reinforcement Learning, RL)は、複雑な問題に対処するための強力なアプローチである。
近年,多目的強化学習(MORL)の導入により,RLの範囲が拡大した。
実際には、このタスクは難しいことがしばしば証明され、これらのテクニックのデプロイが失敗に終わる。
論文 参考訳(メタデータ) (2023-10-25T09:17:25Z) - Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-10-18T06:34:52Z) - Reinforcement Learning-Empowered Mobile Edge Computing for 6G Edge
Intelligence [76.96698721128406]
モバイルエッジコンピューティング(MEC)は、第5世代(5G)ネットワークなどにおける計算と遅延に敏感なタスクのための新しいパラダイムであると考えた。
本稿では、フリー対応RLに関する総合的な研究レビューと、開発のための洞察を提供する。
論文 参考訳(メタデータ) (2022-01-27T10:02:54Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Hybrid Information-driven Multi-agent Reinforcement Learning [3.7011129410662553]
情報理論センサ管理のアプローチは、大きな状態空間では集中的すぎる。
強化学習は、分散最適制御問題の近似解を見つけるための有望な代替手段である。
本稿では,ハイブリッド情報駆動型マルチエージェント強化学習手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T17:28:39Z) - Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文 参考訳(メタデータ) (2020-09-03T10:04:06Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - A Reinforcement Learning based approach for Multi-target Detection in
Massive MIMO radar [12.982044791524494]
本稿では,MMIMO(Multiple input Multiple output)認知レーダ(CR)におけるマルチターゲット検出の問題点について考察する。
本稿では,未知の外乱統計の存在下での認知的マルチターゲット検出のための強化学習(RL)に基づくアルゴリズムを提案する。
定常環境と動的環境の両方において提案したRLアルゴリズムの性能を評価するため, 数値シミュレーションを行った。
論文 参考訳(メタデータ) (2020-05-10T16:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。