論文の概要: One After Another: Learning Incremental Skills for a Changing World
- arxiv url: http://arxiv.org/abs/2203.11176v1
- Date: Mon, 21 Mar 2022 17:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 15:52:00.584022
- Title: One After Another: Learning Incremental Skills for a Changing World
- Title(参考訳): 次から次へと:世界を変えるためのインクリメンタルスキルを学ぶ
- Authors: Nur Muhammad Shafiullah, Lerrel Pinto
- Abstract要約: スキル発見のための新たなフレームワークを提案する。
進化環境と静的環境の両方において、インクリメンタルスキルは現在の最先端のスキル発見方法よりも著しく優れていることを実証した。
- 参考スコア(独自算出の注目度): 19.051800747558794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward-free, unsupervised discovery of skills is an attractive alternative to
the bottleneck of hand-designing rewards in environments where task supervision
is scarce or expensive. However, current skill pre-training methods, like many
RL techniques, make a fundamental assumption - stationary environments during
training. Traditional methods learn all their skills simultaneously, which
makes it difficult for them to both quickly adapt to changes in the
environment, and to not forget earlier skills after such adaptation. On the
other hand, in an evolving or expanding environment, skill learning must be
able to adapt fast to new environment situations while not forgetting
previously learned skills. These two conditions make it difficult for classic
skill discovery to do well in an evolving environment. In this work, we propose
a new framework for skill discovery, where skills are learned one after another
in an incremental fashion. This framework allows newly learned skills to adapt
to new environment or agent dynamics, while the fixed old skills ensure the
agent doesn't forget a learned skill. We demonstrate experimentally that in
both evolving and static environments, incremental skills significantly
outperform current state-of-the-art skill discovery methods on both skill
quality and the ability to solve downstream tasks. Videos for learned skills
and code are made public on https://notmahi.github.io/disk
- Abstract(参考訳): 報酬のない、教師なしのスキルの発見は、タスクの監督が不十分あるいは高価である環境において、手作りの報酬のボトルネックの代替となる。
しかし、現在のスキル事前トレーニング手法は、多くのrl技術と同様に、トレーニング中の静止環境という基本的な前提を立てている。
従来の方法では、すべてのスキルを同時に学習するので、環境の変化に素早く適応することや、それ以前のスキルを忘れないことが難しくなります。
一方で、進化または拡大する環境では、スキル学習は、以前の学習スキルを忘れずに、新しい環境状況に素早く適応できなければならない。
これらの2つの条件は、古典的なスキル発見が進化する環境でうまく機能することを困難にしている。
本研究では,スキル発見のための新たなフレームワークを提案する。
このフレームワークは、新しい学習スキルを新しい環境やエージェントダイナミクスに適応させ、固定された古いスキルはエージェントが学習スキルを忘れないようにします。
進化環境と静的環境の両方において,インクリメンタルスキルがスキル品質とダウンストリームタスクの解決能力の両方において,現在の最先端スキル発見方法を大幅に上回っていることを実験的に示す。
学習スキルとコードに関するビデオはhttps://notmahi.github.io/diskで公開されている。
関連論文リスト
- Bootstrap Your Own Skills: Learning to Solve New Tasks with Large
Language Model Guidance [66.615355754712]
BOSSが"スキルブートストラップ"を実行して新しいタスクを達成
LLM誘導型ブートストラップ法で訓練されたエージェントは,実生活環境における実測実験により,ナイーブなブートストラップ法で訓練されたエージェントよりも優れていた。
論文 参考訳(メタデータ) (2023-10-16T02:43:47Z) - Controllability-Aware Unsupervised Skill Discovery [94.19932297743439]
本稿では,非教師なしスキル発見手法であるCSD(Controlability-aware Skill Discovery)を導入する。
CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。
ロボット操作と移動環境の6つの実験結果から、CSDは監督なしで多様な複雑なスキルを発見できることが示された。
論文 参考訳(メタデータ) (2023-02-10T08:03:09Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - SKILL-IL: Disentangling Skill and Knowledge in Multitask Imitation
Learning [21.222568055417717]
人間はスキルと知識を伝達することができる。仕事のサイクルと店へのドライブができれば、店へのサイクルと仕事へのドライブも可能だ。
このことから着想を得て、ポリシーネットワークの潜在記憶を2つのパーティションに切り離すことができると仮定する。
これらは、タスクの環境コンテキストに関する知識や、タスクの解決に必要な一般化可能なスキルを含んでいる。
論文 参考訳(メタデータ) (2022-05-06T10:38:01Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z) - Relative Variational Intrinsic Control [11.328970848714919]
Relative Variational Intrinsic Control(RVIC)は、エージェントが環境との関係をどのように変えるかで区別できる学習スキルを奨励します。
本稿では,階層的強化学習において,既存の手法によるスキルよりもRVICのスキルが有用であることを示す。
論文 参考訳(メタデータ) (2020-12-14T18:59:23Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - Accelerating Reinforcement Learning with Learned Skill Priors [20.268358783821487]
現代の強化学習アプローチは、すべてのタスクをゼロから学習する。
事前知識を活用する1つのアプローチは、事前タスクで学んだスキルを新しいタスクに移すことである。
学習したスキル事前は、リッチデータセットからの効果的なスキル伝達に不可欠であることを示す。
論文 参考訳(メタデータ) (2020-10-22T17:59:51Z) - ELSIM: End-to-end learning of reusable skills through intrinsic
motivation [0.0]
本稿では、階層的に学習し、エンドツーエンドで自己生成スキルを表現する新しい強化学習アーキテクチャを提案する。
このアーキテクチャでは、エージェントは、スキルボトムアップの学習プロセスを維持しながら、タスクリワードスキルのみに焦点を当てる。
論文 参考訳(メタデータ) (2020-06-23T11:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。