論文の概要: Automatic Curriculum Learning For Deep RL: A Short Survey
- arxiv url: http://arxiv.org/abs/2003.04664v2
- Date: Thu, 28 May 2020 20:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 20:16:27.811903
- Title: Automatic Curriculum Learning For Deep RL: A Short Survey
- Title(参考訳): Deep RLのための自動カリキュラム学習: 簡単な調査
- Authors: R\'emy Portelas, C\'edric Colas, Lilian Weng, Katja Hofmann and
Pierre-Yves Oudeyer
- Abstract要約: ACL(Automatic Curriculum Learning)は,近年のDep Reinforcement Learning(DRL)の成功の基盤となっている。
この研究の目標は、コンパクトで導入可能なオートマチックラーニング文学を提示し、既存の概念の交配と新しいアイデアの出現を促進するために、ACLにおける芸術の現在の状況をより深く描くことである。
- 参考スコア(独自算出の注目度): 32.91961426023246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Curriculum Learning (ACL) has become a cornerstone of recent
successes in Deep Reinforcement Learning (DRL).These methods shape the learning
trajectories of agents by challenging them with tasks adapted to their
capacities. In recent years, they have been used to improve sample efficiency
and asymptotic performance, to organize exploration, to encourage
generalization or to solve sparse reward problems, among others. The ambition
of this work is dual: 1) to present a compact and accessible introduction to
the Automatic Curriculum Learning literature and 2) to draw a bigger picture of
the current state of the art in ACL to encourage the cross-breeding of existing
concepts and the emergence of new ideas.
- Abstract(参考訳): ACL(Automatic Curriculum Learning)は、近年のDeep Reinforcement Learning(DRL)の成功の基盤となっている。
これらの手法は、エージェントの能力に適応したタスクに挑戦することで、エージェントの学習軌跡を形成する。
近年では、サンプル効率と漸近性能の向上、探索の組織化、一般化の促進、スパース報酬問題の解決などに利用されてきた。
この仕事の野心は二重である。
1) オートマチックカリキュラムラーニング文献のコンパクトでアクセスしやすい紹介と紹介
2) 既存の概念の交配と新たなアイデアの出現を促進するため,ACL における最先端の図面を描くこと。
関連論文リスト
- LW2G: Learning Whether to Grow for Prompt-based Continual Learning [15.766350352592331]
最近のPrompt-based Continual Learning (PCL) は、事前学習モデル(PTM)による顕著なパフォーマンスを実現している。
我々は,タスク間の相違に基づいて,成長するかどうか (LW2G) をtextbfLearn Wearn に送信するプラグインモジュールを提案する。
グラディエント・プロジェクションの継続学習にインスパイアされたLW2Gは、Hinder Forward Capability(HFC)と呼ばれるメトリクスを開発し、新しいタスクの学習に課される障害を測定する。
論文 参考訳(メタデータ) (2024-09-27T15:55:13Z) - Task Phasing: Automated Curriculum Learning from Demonstrations [46.1680279122598]
報酬ドメインを疎結合にするために強化学習を適用することは、ガイド信号が不十分なため、非常に難しい。
本稿では,実演を用いてカリキュラムのシーケンスを自動的に生成する手法を提案する。
3つのスパース報酬領域に対する実験結果から,我々のタスク・ファスリング・アプローチは,パフォーマンスに関して最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-10-20T03:59:11Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - AANG: Automating Auxiliary Learning [110.36191309793135]
補助目的の集合を自動生成する手法を提案する。
我々は、新しい統合分類体系の中で既存の目的を分解し、それらの関係を識別し、発見された構造に基づいて新しい目的を創出することで、これを実現する。
これにより、生成された目的物の空間を探索し、指定されたエンドタスクに最も有用なものを見つけるための、原理的かつ効率的なアルゴリズムが導かれる。
論文 参考訳(メタデータ) (2022-05-27T16:32:28Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Hierarchical Reinforcement Learning in StarCraft II with Human Expertise
in Subgoals Selection [13.136763521789307]
本稿では,人的知識に基づく暗黙的なカリキュラム設計を通じて,HRL,経験リプレイ,効果的なサブゴール選択を統合した新しい手法を提案する。
提案手法は, フラットおよびエンド・ツー・エンドのRL法よりも優れたサンプリング効率を実現し, エージェントの性能を説明する効果的な方法を提供する。
論文 参考訳(メタデータ) (2020-08-08T04:56:30Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。
実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。
本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。
このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文 参考訳(メタデータ) (2020-04-24T15:48:07Z) - Trying AGAIN instead of Trying Longer: Prior Learning for Automatic
Curriculum Learning [39.489869446313065]
Deep RL(DRL)コミュニティにおける大きな課題は、見えない状況に対して汎用的なエージェントを訓練することである。
そこで本研究では,(1)教師アルゴリズムがDRLエージェントを高探索カリキュラムで学習し,(2)初回から学習した前処理を蒸留して「専門カリキュラム」を生成する2段階のACLアプローチを提案する。
本研究の目的は,最先端技術に対する平均50%の改善を示すことに加えて,複数の学習者を対象としたACL技術の改良を指向した新たな研究方向性の第一の例を示すことである。
論文 参考訳(メタデータ) (2020-04-07T07:30:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。