論文の概要: Continual Learning of Control Primitives: Skill Discovery via
Reset-Games
- arxiv url: http://arxiv.org/abs/2011.05286v1
- Date: Tue, 10 Nov 2020 18:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 06:48:58.630851
- Title: Continual Learning of Control Primitives: Skill Discovery via
Reset-Games
- Title(参考訳): 制御プリミティブの連続学習:リセットゲームによるスキル発見
- Authors: Kelvin Xu, Siddharth Verma, Chelsea Finn, Sergey Levine
- Abstract要約: エージェントが最小限の監督力でスキルを習得できる方法を示す。
私たちは、エージェントを学習タスクの初期状態の広いセットに"リセット"する必要があるという洞察を利用して、多様な"リセットスキル"を学ぶための自然な設定を提供します。
- 参考スコア(独自算出の注目度): 128.36174682118488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has the potential to automate the acquisition of
behavior in complex settings, but in order for it to be successfully deployed,
a number of practical challenges must be addressed. First, in real world
settings, when an agent attempts a task and fails, the environment must somehow
"reset" so that the agent can attempt the task again. While easy in simulation,
this could require considerable human effort in the real world, especially if
the number of trials is very large. Second, real world learning often involves
complex, temporally extended behavior that is often difficult to acquire with
random exploration. While these two problems may at first appear unrelated, in
this work, we show how a single method can allow an agent to acquire skills
with minimal supervision while removing the need for resets. We do this by
exploiting the insight that the need to "reset" an agent to a broad set of
initial states for a learning task provides a natural setting to learn a
diverse set of "reset-skills". We propose a general-sum game formulation that
balances the objectives of resetting and learning skills, and demonstrate that
this approach improves performance on reset-free tasks, and additionally show
that the skills we obtain can be used to significantly accelerate downstream
learning.
- Abstract(参考訳): 強化学習は複雑な環境での行動の獲得を自動化する可能性があるが、それがうまく展開されるためには、多くの実用的な課題に対処する必要がある。
まず、現実世界の設定では、エージェントがタスクを試みて失敗すると、エージェントが再びタスクを試みられるように、環境が何かを「リセット」する必要がある。
シミュレーションは簡単だが、特に試行回数が非常に多い場合は、現実世界でかなりの人的努力が必要になる可能性がある。
第二に、現実世界の学習は、しばしば複雑で時間的に拡張された振る舞いを伴い、ランダムな探索で取得することが難しい。
これらの2つの問題は、当初は無関係に見えるかもしれないが、本研究では、エージェントがリセットの必要をなくしながら、最小限の監督力でスキルを習得できる方法を示す。
我々は、エージェントを学習タスクの初期状態の広いセットに“リセット”する必要があるという洞察を利用して、多様な“リセットスキル”を学習するための自然な設定を提供します。
そこで本研究では,リセットと学習スキルのバランスをとる汎用ゲーム定式化を提案し,リセットフリータスクの性能向上効果を示すとともに,得られたスキルを下流学習の大幅な促進に活用できることを実証する。
関連論文リスト
- You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - Automating Reinforcement Learning with Example-based Resets [19.86233948960312]
既存の強化学習アルゴリズムは、エージェントが各エピソードの最後に固定された初期状態分布にリセットするエピソード設定を仮定する。
本稿では,自己指導型リセット学習を行うエージェントを導入することで,従来の強化学習をより大きな自律性に向けて拡張することを提案する。
シミュレーションおよび実世界の連続制御タスクをスクラッチから学習するために本手法を適用し,手動リセットを減らすために,リセットエージェントがうまく学習できることを実証する。
論文 参考訳(メタデータ) (2022-04-05T08:12:42Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Curriculum Learning with Hindsight Experience Replay for Sequential
Object Manipulation Tasks [1.370633147306388]
本稿では,カリキュラム学習とHER(Hindsight Experience Replay)を組み合わせて,逐次的なオブジェクト操作タスクを学習するアルゴリズムを提案する。
このアルゴリズムは、多くのオブジェクト操作タスクに固有のリカレント構造を利用し、元のシミュレーションで学習プロセス全体を各ソースタスクに調整することなく実装する。
論文 参考訳(メタデータ) (2020-08-21T08:59:28Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - The Ingredients of Real-World Robotic Reinforcement Learning [71.92831985295163]
実世界で収集されたデータによって継続的に自律的に改善できるロボット学習システムに必要な要素について論じる。
本稿では,このようなシステムの特異なインスタンス化を事例として,デクスタラスな操作を事例として提案する。
我々は人間の介入なしに学習できることを実証し、現実世界の3本指の手で様々な視覚ベースのスキルを習得する。
論文 参考訳(メタデータ) (2020-04-27T03:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。