Fugu-MT 論文翻訳(概要): Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery

論文の概要: Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery

arxiv url: http://arxiv.org/abs/2210.03516v2
Date: Fri, 31 Mar 2023 08:55:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-03 17:30:32.387058
Title: Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery
Title（参考訳）: 神経進化はスキル発見のための強化学習の競合的代替手段である
Authors: Felix Chalumeau, Raphael Boige, Bryan Lim, Valentin Mac\'e, Maxime Allard, Arthur Flajolet, Antoine Cully, Thomas Pierrot
Abstract要約: 深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
参考スコア（独自算出の注目度）: 4.166222146146801
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Reinforcement Learning (RL) has emerged as a powerful paradigm for training neural policies to solve complex control tasks. However, these policies tend to be overfit to the exact specifications of the task and environment they were trained on, and thus do not perform well when conditions deviate slightly or when composed hierarchically to solve even more complex tasks. Recent work has shown that training a mixture of policies, as opposed to a single one, that are driven to explore different regions of the state-action space can address this shortcoming by generating a diverse set of behaviors, referred to as skills, that can be collectively used to great effect in adaptation tasks or for hierarchical planning. This is typically realized by including a diversity term - often derived from information theory - in the objective function optimized by RL. However these approaches often require careful hyperparameter tuning to be effective. In this work, we demonstrate that less widely-used neuroevolution methods, specifically Quality Diversity (QD), are a competitive alternative to information-theory-augmented RL for skill discovery. Through an extensive empirical evaluation comparing eight state-of-the-art algorithms (four flagship algorithms from each line of work) on the basis of (i) metrics directly evaluating the skills' diversity, (ii) the skills' performance on adaptation tasks, and (iii) the skills' performance when used as primitives for hierarchical planning; QD methods are found to provide equal, and sometimes improved, performance whilst being less sensitive to hyperparameters and more scalable. As no single method is found to provide near-optimal performance across all environments, there is a rich scope for further research which we support by proposing future directions and providing optimized open-source implementations.
Abstract（参考訳）: deep reinforcement learning(rl)は、複雑な制御タスクを解決するためにニューラルネットワークポリシをトレーニングするための強力なパラダイムとして登場した。しかしながら、これらのポリシーは、訓練されたタスクと環境の正確な仕様に適合しがちであり、条件がわずかにずれたり、階層的に構成された場合、さらに複雑なタスクを解決するためにうまく機能しない。最近の研究は、単一の政策とは対照的に、様々な領域の国家行動空間を探索するために推進される政策の混合を訓練することが、適応タスクや階層的計画において大きな影響を与える様々な行動セットを生成することによって、この欠点に対処できることを示した。これは典型的には、RLによって最適化された目的関数に多様性項(しばしば情報理論に由来する)を含めることで実現される。しかし、これらのアプローチは、しばしば注意深いハイパーパラメータチューニングを効果的に必要とします。本研究は, 広範に用いられない神経進化法, 特にqd( quality diversity)が, スキル発見のための情報理論に基づくrlの代替となることを実証する。 8つの最先端アルゴリズム(各作業ラインの4つのフラッグシップアルゴリズム)を比較した広範な実証評価を通じて (i)スキルの多様性を直接評価する指標。 (ii)適応作業における技能の発揮、及び (iii)階層的計画のためのプリミティブとして使用する場合、qdメソッドは、ハイパーパラメータに対する感度が低く、スケーラブルで、性能が同等で、時には改善される。すべての環境に対してほぼ最適性能を提供する方法が存在しないため、今後の方向性を提案し、最適化されたオープンソース実装を提供することで、さらなる研究を支援するための豊富なスコープがある。

関連論文リスト

Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2026-01-06T09:28:53Z)
Causally Aligned Curriculum Learning [69.11672390876763]
本稿では、因果レンズによるカリキュラムRLの問題について検討する。因果的に整合したソースタスクを特徴付ける十分なグラフィカルな条件を導出する。因果整合型カリキュラムを生成するための効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-03-21T02:20:38Z)
Stepsize Learning for Policy Gradient Methods in Contextual Markov Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文参考訳（メタデータ） (2023-06-13T12:58:12Z)
Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。 HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文参考訳（メタデータ） (2023-05-27T02:05:41Z)
Proximal Policy Gradient Arborescence for Quality Diversity Reinforcement Learning [14.16864939687988]
環境を徹底的に探求し、新しい多様なスキルを学ぶ、一般的に有能なエージェントを訓練することは、ロボット学習の長期的な目標である。品質多様性強化学習(QD-RL: Quality Diversity Reinforcement Learning)は、両分野の最高の側面をブレンドする新興研究分野である。
論文参考訳（メタデータ） (2023-05-23T08:05:59Z)
Efficient Meta Reinforcement Learning for Preference-based Fast Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-11-20T03:55:09Z)
The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文参考訳（メタデータ） (2021-10-06T13:08:36Z)
Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文参考訳（メタデータ） (2021-09-14T17:12:20Z)
Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文参考訳（メタデータ） (2021-08-08T19:32:44Z)
Variational Empowerment as Representation Learning for Goal-Based Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文参考訳（メタデータ） (2021-06-02T18:12:26Z)
Policy Information Capacity: Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文参考訳（メタデータ） (2021-03-23T17:49:50Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)
Simultaneously Evolving Deep Reinforcement Learning Models using Multifactorial Optimization [18.703421169342796]
この研究は、関連する強化学習タスクの解決に向けて、複数のDQLモデルを同時に進化させることのできるフレームワークを提案する。フレームワークの性能を評価するために、徹底的な実験を行い、議論する。
論文参考訳（メタデータ） (2020-02-25T10:36:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。