論文の概要: SQUIRL: Robust and Efficient Learning from Video Demonstration of
Long-Horizon Robotic Manipulation Tasks
- arxiv url: http://arxiv.org/abs/2003.04956v1
- Date: Tue, 10 Mar 2020 20:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 21:59:08.805857
- Title: SQUIRL: Robust and Efficient Learning from Video Demonstration of
Long-Horizon Robotic Manipulation Tasks
- Title(参考訳): SQUIRL:長軸ロボットマニピュレーションタスクのビデオデモによるロバストで効率的な学習
- Authors: Bohan Wu, Feng Xu, Zhanpeng He, Abhi Gupta, and Peter K. Allen
- Abstract要約: 深層強化学習(RL)は複雑な操作タスクを学習するために用いられる。
RLは、ロボットが大量の現実世界の経験を収集する必要がある。
SQUIRLは、単一のビデオデモしか持たない、新しいが関連するロングホライゾンタスクを実行する。
- 参考スコア(独自算出の注目度): 8.756012472587601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in deep reinforcement learning (RL) have demonstrated its
potential to learn complex robotic manipulation tasks. However, RL still
requires the robot to collect a large amount of real-world experience. To
address this problem, recent works have proposed learning from expert
demonstrations (LfD), particularly via inverse reinforcement learning (IRL),
given its ability to achieve robust performance with only a small number of
expert demonstrations. Nevertheless, deploying IRL on real robots is still
challenging due to the large number of robot experiences it requires. This
paper aims to address this scalability challenge with a robust,
sample-efficient, and general meta-IRL algorithm, SQUIRL, that performs a new
but related long-horizon task robustly given only a single video demonstration.
First, this algorithm bootstraps the learning of a task encoder and a
task-conditioned policy using behavioral cloning (BC). It then collects
real-robot experiences and bypasses reward learning by directly recovering a
Q-function from the combined robot and expert trajectories. Next, this
algorithm uses the Q-function to re-evaluate all cumulative experiences
collected by the robot to improve the policy quickly. In the end, the policy
performs more robustly (90%+ success) than BC on new tasks while requiring no
trial-and-errors at test time. Finally, our real-robot and simulated
experiments demonstrate our algorithm's generality across different state
spaces, action spaces, and vision-based manipulation tasks, e.g.,
pick-pour-place and pick-carry-drop.
- Abstract(参考訳): 深部強化学習(RL)の最近の進歩は、複雑なロボット操作タスクを学習する可能性を示している。
しかし、RLはロボットに大量の現実世界の体験を収集する必要がある。
この問題に対処するため、近年の研究では、少数の専門家によるデモンストレーションだけで堅牢なパフォーマンスを実現する能力から、特に逆強化学習(irl)を通じて、エキスパートデモンストレーション(lfd)からの学習を提案している。
それでも、実際のロボットにIRLをデプロイすることは、大量のロボット体験を必要とするため、依然として難しい。
本稿では,この拡張性に頑健で,サンプル効率が高く,かつ汎用的なメタIRLアルゴリズムであるSQUIRLを用いて取り組むことを目的としている。
このアルゴリズムはまず,行動クローニング(BC)を用いたタスクエンコーダとタスク条件付きポリシーの学習をブートストラップする。
そして、実際のロボット体験を収集し、報酬学習を回避し、組み合わせたロボットと専門家の軌道からQ関数を直接回収する。
次に、このアルゴリズムはQ関数を用いて、ロボットが収集した累積体験を再評価し、ポリシーを迅速に改善する。
結局、このポリシーは、テスト時に試行錯誤を必要とせず、新しいタスクでbcよりも堅牢に(90%以上の成功)する。
最後に、我々の実ロボットとシミュレーション実験は、異なる状態空間、アクション空間、視覚に基づく操作タスク、例えばピック・プール・プレースやピック・キャリー・ドロップにおけるアルゴリズムの一般化を実証する。
関連論文リスト
- Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Accelerating Robot Learning of Contact-Rich Manipulations: A Curriculum
Learning Study [4.045850174820418]
本稿では,Domain Randomization(DR)と組み合わせたカリキュラム学習に基づく,コンタクトリッチな操作タスクのロボット学習の高速化に関する研究を行う。
挿入タスクのような位置制御ロボットによる複雑な産業組み立てタスクに対処する。
また,おもちゃのタスクを用いたシミュレーションでのみトレーニングを行う場合においても,現実のロボットに伝達可能なポリシーを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-04-27T11:08:39Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z) - CRIL: Continual Robot Imitation Learning via Generative and Prediction
Model [8.896427780114703]
本研究では,ロボットが個別に新しいタスクを継続的に学習することを可能にする,連続的な模倣学習能力を実現する方法について研究する。
本稿では,生成的対向ネットワークと動的予測モデルの両方を利用する新しいトラジェクトリ生成モデルを提案する。
本手法の有効性をシミュレーションと実世界操作の両方で実証した。
論文 参考訳(メタデータ) (2021-06-17T12:15:57Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。