論文の概要: Divide & Conquer Imitation Learning
- arxiv url: http://arxiv.org/abs/2204.07404v2
- Date: Thu, 13 Apr 2023 11:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 20:53:55.430982
- Title: Divide & Conquer Imitation Learning
- Title(参考訳): 模倣学習の分割と克服
- Authors: Alexandre Chenu, Nicolas Perrin-Gilbert and Olivier Sigaud
- Abstract要約: 模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
- 参考スコア(独自算出の注目度): 75.31752559017978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When cast into the Deep Reinforcement Learning framework, many robotics tasks
require solving a long horizon and sparse reward problem, where learning
algorithms struggle. In such context, Imitation Learning (IL) can be a powerful
approach to bootstrap the learning process. However, most IL methods require
several expert demonstrations which can be prohibitively difficult to acquire.
Only a handful of IL algorithms have shown efficiency in the context of an
extreme low expert data regime where a single expert demonstration is
available. In this paper, we present a novel algorithm designed to imitate
complex robotic tasks from the states of an expert trajectory. Based on a
sequential inductive bias, our method divides the complex task into smaller
skills. The skills are learned into a goal-conditioned policy that is able to
solve each skill individually and chain skills to solve the entire task. We
show that our method imitates a non-holonomic navigation task and scales to a
complex simulated robotic manipulation task with very high sample efficiency.
- Abstract(参考訳): 深層強化学習フレームワークに投入すると、多くのロボット工学タスクは、学習アルゴリズムが苦労する長い地平線とまばらな報酬問題を解決する必要がある。
このような文脈では、模倣学習(il)は学習プロセスをブートストラップする強力なアプローチになり得る。
しかし、ほとんどのilメソッドはいくつかの専門家によるデモンストレーションを必要とするため、入手は極めて困難である。
1つの専門家のデモンストレーションが利用可能な極めて低い専門家データ体制の文脈で効率を示すのは、少数のILアルゴリズムのみである。
本稿では,専門家軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
逐次帰納的バイアスに基づいて,複雑なタスクをより小さなスキルに分割する。
スキルは、個々のスキルを個別に解決し、タスク全体をチェーンして解決できる目標条件のポリシーに学習される。
本手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なシミュレーションロボット操作タスクにスケールすることを示す。
関連論文リスト
- Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Active Hierarchical Imitation and Reinforcement Learning [0.0]
本研究では,我々が開発した階層的模倣強化学習フレームワークを用いて,様々な模倣学習アルゴリズムを探索し,アクティブ学習アルゴリズムを設計した。
実験の結果,daggerと報酬ベースのアクティブラーニング手法は,トレーニング過程において身体的および精神的により多くの努力を省きながら,よりよいパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2020-12-14T08:27:27Z) - An Empowerment-based Solution to Robotic Manipulation Tasks with Sparse
Rewards [14.937474939057596]
ロボットマニピュレータは、非常にまばらな指示信号しか提供されていなくても、タスクを達成できることを学ぶことが重要である。
本稿では,任意の標準強化学習アルゴリズムに容易に組み込むことができる本質的な動機づけ手法を提案する。
論文 参考訳(メタデータ) (2020-10-15T19:06:21Z) - Complex Skill Acquisition Through Simple Skill Imitation Learning [0.0]
本稿では,ニューラルネットワークのポリシーをシンプルで学習しやすいスキルで学習するアルゴリズムを提案する。
複雑なタスクが単純なサブタスクの同時(そしておそらくはシーケンシャルな)組み合わせである場合に焦点を当てる。
我々のアルゴリズムは、トレーニング速度と全体的な性能において、最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2020-07-20T17:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。