論文の概要: One After Another: Learning Incremental Skills for a Changing World
- arxiv url: http://arxiv.org/abs/2203.11176v1
- Date: Mon, 21 Mar 2022 17:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 15:52:00.584022
- Title: One After Another: Learning Incremental Skills for a Changing World
- Title(参考訳): 次から次へと:世界を変えるためのインクリメンタルスキルを学ぶ
- Authors: Nur Muhammad Shafiullah, Lerrel Pinto
- Abstract要約: スキル発見のための新たなフレームワークを提案する。
進化環境と静的環境の両方において、インクリメンタルスキルは現在の最先端のスキル発見方法よりも著しく優れていることを実証した。
- 参考スコア(独自算出の注目度): 19.051800747558794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward-free, unsupervised discovery of skills is an attractive alternative to
the bottleneck of hand-designing rewards in environments where task supervision
is scarce or expensive. However, current skill pre-training methods, like many
RL techniques, make a fundamental assumption - stationary environments during
training. Traditional methods learn all their skills simultaneously, which
makes it difficult for them to both quickly adapt to changes in the
environment, and to not forget earlier skills after such adaptation. On the
other hand, in an evolving or expanding environment, skill learning must be
able to adapt fast to new environment situations while not forgetting
previously learned skills. These two conditions make it difficult for classic
skill discovery to do well in an evolving environment. In this work, we propose
a new framework for skill discovery, where skills are learned one after another
in an incremental fashion. This framework allows newly learned skills to adapt
to new environment or agent dynamics, while the fixed old skills ensure the
agent doesn't forget a learned skill. We demonstrate experimentally that in
both evolving and static environments, incremental skills significantly
outperform current state-of-the-art skill discovery methods on both skill
quality and the ability to solve downstream tasks. Videos for learned skills
and code are made public on https://notmahi.github.io/disk
- Abstract(参考訳): 報酬のない、教師なしのスキルの発見は、タスクの監督が不十分あるいは高価である環境において、手作りの報酬のボトルネックの代替となる。
しかし、現在のスキル事前トレーニング手法は、多くのrl技術と同様に、トレーニング中の静止環境という基本的な前提を立てている。
従来の方法では、すべてのスキルを同時に学習するので、環境の変化に素早く適応することや、それ以前のスキルを忘れないことが難しくなります。
一方で、進化または拡大する環境では、スキル学習は、以前の学習スキルを忘れずに、新しい環境状況に素早く適応できなければならない。
これらの2つの条件は、古典的なスキル発見が進化する環境でうまく機能することを困難にしている。
本研究では,スキル発見のための新たなフレームワークを提案する。
このフレームワークは、新しい学習スキルを新しい環境やエージェントダイナミクスに適応させ、固定された古いスキルはエージェントが学習スキルを忘れないようにします。
進化環境と静的環境の両方において,インクリメンタルスキルがスキル品質とダウンストリームタスクの解決能力の両方において,現在の最先端スキル発見方法を大幅に上回っていることを実験的に示す。
学習スキルとコードに関するビデオはhttps://notmahi.github.io/diskで公開されている。
関連論文リスト
- SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions [48.003320766433966]
この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。
Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。
本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
論文 参考訳(メタデータ) (2024-10-24T04:01:59Z) - Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning [39.991887534269445]
Disentangled Unsupervised Skill Discovery (DUSDi) は、下流の課題を解決するために効率的に再利用できる非角スキルの学習方法である。
DUSDiはスキルを切り離したコンポーネントに分解し、各スキルコンポーネントは状態空間の1つの要素にのみ影響する。
DUSDiは、障害のあるスキルをうまく学習し、下流タスクの解決に学習したスキルを適用するという点で、従来のスキル発見方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-10-15T04:13:20Z) - Bootstrap Your Own Skills: Learning to Solve New Tasks with Large
Language Model Guidance [66.615355754712]
BOSSが"スキルブートストラップ"を実行して新しいタスクを達成
LLM誘導型ブートストラップ法で訓練されたエージェントは,実生活環境における実測実験により,ナイーブなブートストラップ法で訓練されたエージェントよりも優れていた。
論文 参考訳(メタデータ) (2023-10-16T02:43:47Z) - Controllability-Aware Unsupervised Skill Discovery [94.19932297743439]
本稿では,非教師なしスキル発見手法であるCSD(Controlability-aware Skill Discovery)を導入する。
CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。
ロボット操作と移動環境の6つの実験結果から、CSDは監督なしで多様な複雑なスキルを発見できることが示された。
論文 参考訳(メタデータ) (2023-02-10T08:03:09Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Relative Variational Intrinsic Control [11.328970848714919]
Relative Variational Intrinsic Control(RVIC)は、エージェントが環境との関係をどのように変えるかで区別できる学習スキルを奨励します。
本稿では,階層的強化学習において,既存の手法によるスキルよりもRVICのスキルが有用であることを示す。
論文 参考訳(メタデータ) (2020-12-14T18:59:23Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - Accelerating Reinforcement Learning with Learned Skill Priors [20.268358783821487]
現代の強化学習アプローチは、すべてのタスクをゼロから学習する。
事前知識を活用する1つのアプローチは、事前タスクで学んだスキルを新しいタスクに移すことである。
学習したスキル事前は、リッチデータセットからの効果的なスキル伝達に不可欠であることを示す。
論文 参考訳(メタデータ) (2020-10-22T17:59:51Z) - ELSIM: End-to-end learning of reusable skills through intrinsic
motivation [0.0]
本稿では、階層的に学習し、エンドツーエンドで自己生成スキルを表現する新しい強化学習アーキテクチャを提案する。
このアーキテクチャでは、エージェントは、スキルボトムアップの学習プロセスを維持しながら、タスクリワードスキルのみに焦点を当てる。
論文 参考訳(メタデータ) (2020-06-23T11:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。