論文の概要: Hierarchical Few-Shot Imitation with Skill Transition Models
- arxiv url: http://arxiv.org/abs/2107.08981v1
- Date: Mon, 19 Jul 2021 15:56:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 17:24:37.429187
- Title: Hierarchical Few-Shot Imitation with Skill Transition Models
- Title(参考訳): スキル遷移モデルを用いた階層型ファウショット模倣
- Authors: Kourosh Hakhamaneshi, Ruihan Zhao, Albert Zhan, Pieter Abbeel, Michael
Laskin
- Abstract要約: FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
- 参考スコア(独自算出の注目度): 66.81252581083199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A desirable property of autonomous agents is the ability to both solve
long-horizon problems and generalize to unseen tasks. Recent advances in
data-driven skill learning have shown that extracting behavioral priors from
offline data can enable agents to solve challenging long-horizon tasks with
reinforcement learning. However, generalization to tasks unseen during
behavioral prior training remains an outstanding challenge. To this end, we
present Few-shot Imitation with Skill Transition Models (FIST), an algorithm
that extracts skills from offline data and utilizes them to generalize to
unseen tasks given a few downstream demonstrations. FIST learns an inverse
skill dynamics model, a distance function, and utilizes a semi-parametric
approach for imitation. We show that FIST is capable of generalizing to new
tasks and substantially outperforms prior baselines in navigation experiments
requiring traversing unseen parts of a large maze and 7-DoF robotic arm
experiments requiring manipulating previously unseen objects in a kitchen.
- Abstract(参考訳): 自律エージェントの望ましい特性は、長いホリゾン問題を解き、目に見えないタスクに一般化する能力である。
データ駆動型スキル学習の最近の進歩は、オフラインデータから行動優先事項を抽出することで、エージェントが強化学習による長期タスクの課題を解決することができることを示している。
しかし、行動訓練中に見つからないタスクへの一般化は、依然として顕著な課題である。
そこで本研究では,オフラインデータからスキルを抽出するアルゴリズムであるスキルトランジションモデル(fist)を用いて,数回のダウンストリームデモンストレーションを行い,非認識タスクを一般化する手法を提案する。
FISTは、逆スキルダイナミクスモデル、距離関数を学び、半パラメトリックアプローチを用いて模倣を行う。
その結果,fistは新しい作業に一般化でき,大迷路や7自由度ロボットアームの未発見部分の移動を必要とするナビゲーション実験において,従来は見えない物体をキッチンで操作する必要が生じた。
関連論文リスト
- Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。
この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。
本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-04T08:21:47Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Learning and Retrieval from Prior Data for Skill-based Imitation
Learning [47.59794569496233]
従来のデータから時間的に拡張された感触者スキルを抽出する,スキルベースの模倣学習フレームワークを開発した。
新規タスクの性能を著しく向上させる重要な設計選択をいくつか挙げる。
論文 参考訳(メタデータ) (2022-10-20T17:34:59Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - ASE: Large-Scale Reusable Adversarial Skill Embeddings for Physically
Simulated Characters [123.88692739360457]
汎用運動技術により、人間は複雑な作業を行うことができる。
これらのスキルは、新しいタスクを学ぶときの振る舞いを導くための強力な先駆者も提供します。
物理シミュレーション文字のための汎用的で再利用可能なスキル埋め込みを学習するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-04T06:13:28Z) - Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks [85.56153200251713]
長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2021-09-21T16:48:07Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。