論文の概要: Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery
- arxiv url: http://arxiv.org/abs/2210.03516v3
- Date: Thu, 15 Jun 2023 12:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 03:35:58.485811
- Title: Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery
- Title(参考訳): 神経進化はスキル発見のための強化学習の競合的代替手段である
- Authors: Felix Chalumeau, Raphael Boige, Bryan Lim, Valentin Mac\'e, Maxime
Allard, Arthur Flajolet, Antoine Cully, Thomas Pierrot
- Abstract要約: 深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
- 参考スコア(独自算出の注目度): 4.166222146146801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (RL) has emerged as a powerful paradigm for
training neural policies to solve complex control tasks. However, these
policies tend to be overfit to the exact specifications of the task and
environment they were trained on, and thus do not perform well when conditions
deviate slightly or when composed hierarchically to solve even more complex
tasks. Recent work has shown that training a mixture of policies, as opposed to
a single one, that are driven to explore different regions of the state-action
space can address this shortcoming by generating a diverse set of behaviors,
referred to as skills, that can be collectively used to great effect in
adaptation tasks or for hierarchical planning. This is typically realized by
including a diversity term - often derived from information theory - in the
objective function optimized by RL. However these approaches often require
careful hyperparameter tuning to be effective. In this work, we demonstrate
that less widely-used neuroevolution methods, specifically Quality Diversity
(QD), are a competitive alternative to information-theory-augmented RL for
skill discovery. Through an extensive empirical evaluation comparing eight
state-of-the-art algorithms (four flagship algorithms from each line of work)
on the basis of (i) metrics directly evaluating the skills' diversity, (ii) the
skills' performance on adaptation tasks, and (iii) the skills' performance when
used as primitives for hierarchical planning; QD methods are found to provide
equal, and sometimes improved, performance whilst being less sensitive to
hyperparameters and more scalable. As no single method is found to provide
near-optimal performance across all environments, there is a rich scope for
further research which we support by proposing future directions and providing
optimized open-source implementations.
- Abstract(参考訳): deep reinforcement learning(rl)は、複雑な制御タスクを解決するためにニューラルネットワークポリシをトレーニングするための強力なパラダイムとして登場した。
しかしながら、これらのポリシーは、訓練されたタスクと環境の正確な仕様に適合しがちであり、条件がわずかにずれたり、階層的に構成された場合、さらに複雑なタスクを解決するためにうまく機能しない。
最近の研究は、単一の政策とは対照的に、様々な領域の国家行動空間を探索するために推進される政策の混合を訓練することが、適応タスクや階層的計画において大きな影響を与える様々な行動セットを生成することによって、この欠点に対処できることを示した。
これは典型的には、RLによって最適化された目的関数に多様性項(しばしば情報理論に由来する)を含めることで実現される。
しかし、これらのアプローチは、しばしば注意深いハイパーパラメータチューニングを効果的に必要とします。
本研究は, 広範に用いられない神経進化法, 特にqd( quality diversity)が, スキル発見のための情報理論に基づくrlの代替となることを実証する。
8つの最先端アルゴリズム(各作業ラインの4つのフラッグシップアルゴリズム)を比較した広範な実証評価を通じて
(i)スキルの多様性を直接評価する指標。
(ii)適応作業における技能の発揮、及び
(iii)階層的計画のためのプリミティブとして使用する場合、qdメソッドは、ハイパーパラメータに対する感度が低く、スケーラブルで、性能が同等で、時には改善される。
すべての環境に対してほぼ最適性能を提供する方法が存在しないため、今後の方向性を提案し、最適化されたオープンソース実装を提供することで、さらなる研究を支援するための豊富なスコープがある。
関連論文リスト
- Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文 参考訳(メタデータ) (2023-05-27T02:05:41Z) - Proximal Policy Gradient Arborescence for Quality Diversity
Reinforcement Learning [14.16864939687988]
環境を徹底的に探求し、新しい多様なスキルを学ぶ、一般的に有能なエージェントを訓練することは、ロボット学習の長期的な目標である。
品質多様性強化学習(QD-RL: Quality Diversity Reinforcement Learning)は、両分野の最高の側面をブレンドする新興研究分野である。
論文 参考訳(メタデータ) (2023-05-23T08:05:59Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Simultaneously Evolving Deep Reinforcement Learning Models using
Multifactorial Optimization [18.703421169342796]
この研究は、関連する強化学習タスクの解決に向けて、複数のDQLモデルを同時に進化させることのできるフレームワークを提案する。
フレームワークの性能を評価するために、徹底的な実験を行い、議論する。
論文 参考訳(メタデータ) (2020-02-25T10:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。