論文の概要: FIRL: Fast Imitation and Policy Reuse Learning
- arxiv url: http://arxiv.org/abs/2203.00251v1
- Date: Tue, 1 Mar 2022 06:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 14:51:48.894737
- Title: FIRL: Fast Imitation and Policy Reuse Learning
- Title(参考訳): FIRL: 迅速な模倣と政策再利用学習
- Authors: Yiwen Chen, Zedong Zhang, Haofeng Liu, Jiayi Tan, Marcelo Ang
- Abstract要約: この作業は、ポリシープールに基づいた高速な学習の実現に重点を置いている。
スクラッチから学ぶことを避けることで、ワンショットや数ショットで十分な速さで学習するべきです。
対話や人間からの学習も可能にしていますが、トレーニング期間は数分以内です。
- 参考スコア(独自算出の注目度): 3.2443798547219096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent robotics policies have been widely researched for challenging
applications such as opening doors, washing dishes, and table organization. We
refer to a "Policy Pool", containing skills that be easily accessed and reused.
There are researches to leverage the pool, such as policy reuse, modular
learning, assembly learning, transfer learning, hierarchical reinforcement
learning (HRL), etc. However, most methods generally do not perform well in
learning efficiency and require large datasets for training. This work focuses
on enabling fast learning based on the policy pool. It should learn fast enough
in one-shot or few-shot by avoiding learning from scratch. We also allow it to
interact and learn from humans, but the training period should be within
minutes. We propose FIRL, Fast (one-shot) Imitation, and Policy Reuse Learning.
Instead of learning a new skill from scratch, it performs the one-shot
imitation learning on the higher layer under a 2-layer hierarchical mechanism.
Our method reduces a complex task learning to a simple regression problem that
it could solve in a few offline iterations. The agent could have a good command
of a new task given a one-shot demonstration. We demonstrate this method on the
OpenDoors mini-grid environment, and the code is available on
http://www.github.com/yiwc/firl.
- Abstract(参考訳): インテリジェントなロボティクスポリシーは、ドアを開ける、皿を洗う、テーブルを組織するといった挑戦的な用途のために広く研究されている。
簡単にアクセスして再利用できるスキルを含む"Policy Pool"について言及する。
このプールを活用するための研究としては、ポリシの再利用、モジュール学習、アセンブリ学習、転送学習、階層強化学習(hrl)などがある。
しかし、ほとんどの手法は学習効率が良くないため、トレーニングには大規模なデータセットが必要である。
この作業は、ポリシープールに基づいた高速学習の実現に焦点を当てている。
スクラッチから学ぶことを避けることで、ワンショットや数ショットで十分な速さで学習するべきです。
また、人間と対話し、学ぶことも可能ですが、トレーニング期間は数分以内に行うべきです。
FIRL,Fast (ワンショット) Imitation, Policy Reuse Learningを提案する。
スクラッチから新しいスキルを学ぶ代わりに、2層階層機構の下で、より高い層でワンショット模倣学習を実行する。
本手法は,数回のオフラインイテレーションで解決可能な,複雑なタスク学習を単純な回帰問題に還元する。
エージェントは、一発のデモンストレーションから新しいタスクをうまく指揮することができる。
我々はこの方法をOpenDoorsのミニグリッド環境でデモし、コードはhttp://www.github.com/yiwc/firl.comで公開されている。
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - When Prompt-based Incremental Learning Does Not Meet Strong Pretraining [36.0889029038102]
本研究では,学習可能な適応型プロンプトジェネレータ(APG)を開発した。
鍵となるのは、プロンプト検索と学習プロセスを学習可能なプロンプトジェネレータに統一することである。
本手法は, 事前学習を伴わずに, 先進的な漸進的学習法を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-21T03:33:21Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z) - Rethinking Few-Shot Image Classification: a Good Embedding Is All You
Need? [72.00712736992618]
メタトレーニングセット上で教師付きあるいは自己教師型表現を学習する単純なベースラインが、最先端の数ショット学習方法より優れていることを示す。
追加の増量は自己蒸留によって達成できる。
我々は,この発見が,画像分類ベンチマークとメタ学習アルゴリズムの役割を再考する動機となっていると考えている。
論文 参考訳(メタデータ) (2020-03-25T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。