論文の概要: Persistent Reinforcement Learning via Subgoal Curricula
- arxiv url: http://arxiv.org/abs/2107.12931v1
- Date: Tue, 27 Jul 2021 16:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:51:11.221390
- Title: Persistent Reinforcement Learning via Subgoal Curricula
- Title(参考訳): サブゴナルカリキュラムによる永続的強化学習
- Authors: Archit Sharma, Abhishek Gupta, Sergey Levine, Karol Hausman, Chelsea
Finn
- Abstract要約: VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
- 参考スコア(独自算出の注目度): 114.83989499740193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) promises to enable autonomous acquisition of
complex behaviors for diverse agents. However, the success of current
reinforcement learning algorithms is predicated on an often under-emphasised
requirement -- each trial needs to start from a fixed initial state
distribution. Unfortunately, resetting the environment to its initial state
after each trial requires substantial amount of human supervision and extensive
instrumentation of the environment which defeats the purpose of autonomous
reinforcement learning. In this work, we propose Value-accelerated Persistent
Reinforcement Learning (VaPRL), which generates a curriculum of initial states
such that the agent can bootstrap on the success of easier tasks to efficiently
learn harder tasks. The agent also learns to reach the initial states proposed
by the curriculum, minimizing the reliance on human interventions into the
learning. We observe that VaPRL reduces the interventions required by three
orders of magnitude compared to episodic RL while outperforming prior
state-of-the art methods for reset-free RL both in terms of sample efficiency
and asymptotic performance on a variety of simulated robotics problems.
- Abstract(参考訳): 強化学習(rl)は、多様なエージェントに対する複雑な行動の自律的獲得を可能にする。
しかし、現在の強化学習アルゴリズムの成功は、しばしば強調されていない要件に基づいて予測される。
残念なことに、各試験後の環境を初期状態にリセットするには、自律的な強化学習の目的を破る、かなりの量の人的監督と広範囲な環境計測が必要である。
本稿では,エージェントがより簡単なタスクの成功をブートストラップし,より難しいタスクを効率的に学習できるように,初期状態のカリキュラムを生成する値加速型永続強化学習(vaprl)を提案する。
エージェントはまた、カリキュラムによって提案された初期状態に到達することを学び、学習への人間の介入への依存を最小化する。
我々は,VaPRLが,様々な模擬ロボット問題において,サンプル効率と漸近性能の両面において,リセット不要なRLの先行技術手法より優れる一方で,エピソードRLに比べて3桁の介入を減少させることを観察した。
関連論文リスト
- Single-Reset Divide & Conquer Imitation Learning [49.87201678501027]
デモはDeep Reinforcement Learningアルゴリズムの学習プロセスを高速化するために一般的に使用される。
いくつかのアルゴリズムは1つのデモンストレーションから学習するために開発されている。
論文 参考訳(メタデータ) (2024-02-14T17:59:47Z) - Self-Supervised Curriculum Generation for Autonomous Reinforcement
Learning without Task-Specific Knowledge [25.168236693829783]
現在の強化学習アルゴリズムを現実世界のシナリオに適用する際の大きなボトルネックは、各エピソード間の環境をリセットする必要があることである。
本稿では,タスク固有の知識を使わずにエージェントの学習進捗に適応したカリキュラムを生成する新しいARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:40:10Z) - Demonstration-free Autonomous Reinforcement Learning via Implicit and
Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。
学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-17T04:31:36Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Automating Reinforcement Learning with Example-based Resets [19.86233948960312]
既存の強化学習アルゴリズムは、エージェントが各エピソードの最後に固定された初期状態分布にリセットするエピソード設定を仮定する。
本稿では,自己指導型リセット学習を行うエージェントを導入することで,従来の強化学習をより大きな自律性に向けて拡張することを提案する。
シミュレーションおよび実世界の連続制御タスクをスクラッチから学習するために本手法を適用し,手動リセットを減らすために,リセットエージェントがうまく学習できることを実証する。
論文 参考訳(メタデータ) (2022-04-05T08:12:42Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。