論文の概要: Evolving Populations of Diverse RL Agents with MAP-Elites
- arxiv url: http://arxiv.org/abs/2303.12803v2
- Date: Thu, 15 Jun 2023 15:04:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 01:36:45.252373
- Title: Evolving Populations of Diverse RL Agents with MAP-Elites
- Title(参考訳): MAP-エリートを用いたRL多剤の集団発生
- Authors: Thomas Pierrot and Arthur Flajolet
- Abstract要約: 政策だけでなく,任意の強化学習(RL)アルゴリズムの利用を可能にするフレキシブルなフレームワークを導入する。
我々は,多数のロボット制御問題に対する広範な数値実験を通じて,我々のフレームワークがもたらすメリットを実証する。
- 参考スコア(独自算出の注目度): 1.5575376673936223
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Quality Diversity (QD) has emerged as a powerful alternative optimization
paradigm that aims at generating large and diverse collections of solutions,
notably with its flagship algorithm MAP-ELITES (ME) which evolves solutions
through mutations and crossovers. While very effective for some unstructured
problems, early ME implementations relied exclusively on random search to
evolve the population of solutions, rendering them notoriously
sample-inefficient for high-dimensional problems, such as when evolving neural
networks. Follow-up works considered exploiting gradient information to guide
the search in order to address these shortcomings through techniques borrowed
from either Black-Box Optimization (BBO) or Reinforcement Learning (RL). While
mixing RL techniques with ME unlocked state-of-the-art performance for robotics
control problems that require a good amount of exploration, it also plagued
these ME variants with limitations common among RL algorithms that ME was free
of, such as hyperparameter sensitivity, high stochasticity as well as training
instability, including when the population size increases as some components
are shared across the population in recent approaches. Furthermore, existing
approaches mixing ME with RL tend to be tied to a specific RL algorithm, which
effectively prevents their use on problems where the corresponding RL algorithm
fails. To address these shortcomings, we introduce a flexible framework that
allows the use of any RL algorithm and alleviates the aforementioned
limitations by evolving populations of agents (whose definition include
hyperparameters and all learnable parameters) instead of just policies. We
demonstrate the benefits brought about by our framework through extensive
numerical experiments on a number of robotics control problems, some of which
with deceptive rewards, taken from the QD-RL literature.
- Abstract(参考訳): 品質多様性(qd)は、大規模で多様なソリューションコレクションを生成することを目的とした強力な代替最適化パラダイムとして登場した。
初期のME実装は、いくつかの非構造的な問題に対して非常に効果的であったが、ソリューションの集団を進化させるためにランダム検索にのみ依存しており、ニューラルネットワークの進化など、高次元問題に対するサンプル非効率が悪名高い。
フォローアップは、ブラックボックス最適化(bbo)または強化学習(rl)から借用された技術を通してこれらの欠点に対処するために、勾配情報を利用して探索を導くことを検討する。
高度な探索を必要とするロボット制御問題の解き放たれた状態性能とRLテクニックを混合する一方で、近年のアプローチでは、一部のコンポーネントが人口間で共有されるにつれて、MEが過度なパラメータ感度、高い確率性、およびトレーニング不安定性など、RLアルゴリズムに共通する制限を伴って、これらのME変種を悩ませた。
さらに、MEとRLを混合する既存のアプローチは、特定のRLアルゴリズムと結びつく傾向にあり、対応するRLアルゴリズムが失敗する問題に対するそれらの使用を効果的に防止する。
これらの欠点に対処するために、我々は任意のRLアルゴリズムの使用を可能にするフレキシブルなフレームワークを導入し、単にポリシーではなく、エージェントの個体群(ハイパーパラメータと全ての学習可能なパラメータを含む)を進化させることにより、上記の制限を緩和する。
本研究は,ロボット工学の制御問題に対する広範囲な数値実験を通じて,我々のフレームワークがもたらした利点を実証する。
関連論文リスト
- Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - Variational Autoencoders for exteroceptive perception in reinforcement learning-based collision avoidance [0.0]
Deep Reinforcement Learning (DRL) は有望な制御フレームワークとして登場した。
現在のDRLアルゴリズムは、ほぼ最適ポリシーを見つけるために不均等な計算資源を必要とする。
本稿では,海洋制御システムにおける提案手法の総合的な探索について述べる。
論文 参考訳(メタデータ) (2024-03-31T09:25:28Z) - Hyperparameter Optimization for Multi-Objective Reinforcement Learning [0.27309692684728615]
強化学習(Reinforcement Learning, RL)は、複雑な問題に対処するための強力なアプローチである。
近年,多目的強化学習(MORL)の導入により,RLの範囲が拡大した。
実際には、このタスクは難しいことがしばしば証明され、これらのテクニックのデプロイが失敗に終わる。
論文 参考訳(メタデータ) (2023-10-25T09:17:25Z) - Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-10-18T06:34:52Z) - Reinforcement Learning-Empowered Mobile Edge Computing for 6G Edge
Intelligence [76.96698721128406]
モバイルエッジコンピューティング(MEC)は、第5世代(5G)ネットワークなどにおける計算と遅延に敏感なタスクのための新しいパラダイムであると考えた。
本稿では、フリー対応RLに関する総合的な研究レビューと、開発のための洞察を提供する。
論文 参考訳(メタデータ) (2022-01-27T10:02:54Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文 参考訳(メタデータ) (2020-09-03T10:04:06Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。