論文の概要: Pre-Training for Robots: Offline RL Enables Learning New Tasks from a
Handful of Trials
- arxiv url: http://arxiv.org/abs/2210.05178v3
- Date: Sat, 23 Sep 2023 23:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 04:42:39.865490
- Title: Pre-Training for Robots: Offline RL Enables Learning New Tasks from a
Handful of Trials
- Title(参考訳): ロボットの事前訓練:オフラインRLで試行錯誤から新しいタスクを学習できる
- Authors: Aviral Kumar, Anikait Singh, Frederik Ebert, Mitsuhiko Nakamoto,
Yanlai Yang, Chelsea Finn, Sergey Levine
- Abstract要約: 新しいタスクを効果的に学習しようとするオフラインRLに基づくフレームワークを提案する。
既存のロボットデータセットの事前トレーニングと、新しいタスクの迅速な微調整と、最大10のデモを組み合わせたものだ。
我々の知る限り、PTRは本物のWidowXロボットで新しいドメインで新しいタスクを学習する最初のRL手法である。
- 参考スコア(独自算出の注目度): 97.95400776235736
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Progress in deep learning highlights the tremendous potential of utilizing
diverse robotic datasets for attaining effective generalization and makes it
enticing to consider leveraging broad datasets for attaining robust
generalization in robotic learning as well. However, in practice, we often want
to learn a new skill in a new environment that is unlikely to be contained in
the prior data. Therefore we ask: how can we leverage existing diverse offline
datasets in combination with small amounts of task-specific data to solve new
tasks, while still enjoying the generalization benefits of training on large
amounts of data? In this paper, we demonstrate that end-to-end offline RL can
be an effective approach for doing this, without the need for any
representation learning or vision-based pre-training. We present pre-training
for robots (PTR), a framework based on offline RL that attempts to effectively
learn new tasks by combining pre-training on existing robotic datasets with
rapid fine-tuning on a new task, with as few as 10 demonstrations. PTR utilizes
an existing offline RL method, conservative Q-learning (CQL), but extends it to
include several crucial design decisions that enable PTR to actually work and
outperform a variety of prior methods. To our knowledge, PTR is the first RL
method that succeeds at learning new tasks in a new domain on a real WidowX
robot with as few as 10 task demonstrations, by effectively leveraging an
existing dataset of diverse multi-task robot data collected in a variety of toy
kitchens. We also demonstrate that PTR can enable effective autonomous
fine-tuning and improvement in a handful of trials, without needing any
demonstrations. An accompanying overview video can be found in the
supplementary material and at thi URL: https://sites.google.com/view/ptr-final/
- Abstract(参考訳): 深層学習の進歩は、効果的な一般化を達成するために多様なロボットデータセットを利用するという驚くべき可能性を浮き彫りにしている。
しかし、実際には、私たちは多くの場合、以前のデータに含まれない新しい環境で新しいスキルを学びたいと思っています。
そこで、我々はどのようにして既存の多様なオフラインデータセットを、少数のタスク固有のデータと組み合わせて新しいタスクを解決し、大量のデータに対するトレーニングの一般化の利点を享受できるか?
本稿では,表現学習や視覚に基づく事前学習を必要とせずに,エンドツーエンドのオフラインRLが効果的に実現可能であることを示す。
我々は、既存のロボットデータセットの事前学習と新しいタスクの迅速な微調整を組み合わせることで、新しいタスクを効果的に学習するオフラインRLに基づくフレームワークであるPTR(Pre-training for Robot)を提案する。
PTRは、既存のオフラインのRLメソッド、保守的Qラーニング(CQL)を使用しているが、PTRが実際に動作し、さまざまな先行メソッドを上回る性能を発揮するための重要な設計決定を含むように拡張されている。
我々の知る限り、PTRは、さまざまなおもちゃのキッチンで収集された多様なマルチタスクロボットデータのデータセットを効果的に活用することで、実際のWidowXロボットの新しいドメインで10個のタスクデモを行うのに成功する最初のRL手法である。
我々はまた、PTRがデモを必要とせずに、少数の試験において効果的な自律的な微調整と改善を可能にすることを実証した。
付随する概要ビデオは補足資料とtiのurlで見ることができる。 https://sites.google.com/view/ptr-final/
関連論文リスト
- EXTRACT: Efficient Policy Learning by Extracting Transferable Robot Skills from Offline Data [22.471559284344462]
ほとんどの強化学習(RL)手法は、低レベルな行動空間上の最適ポリシーの学習に重点を置いている。
これらの手法はトレーニング環境ではうまく機能するが、新しいタスクに移行する柔軟性に欠ける。
我々は,従来の作業よりも短時間で新しいタスクを学習できる,スパースでイメージベースのロボット操作環境の実験を通じて実演する。
論文 参考訳(メタデータ) (2024-06-25T17:50:03Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Robotic Offline RL from Internet Videos via Value-Function Pre-Training [67.44673316943475]
ロボットオフラインRLにおける大規模ビデオデータセットを活用するシステムを開発した。
ビデオデータセットにおける価値学習は、下流のロボットオフラインRLに対して、他のアプローチよりも理解しやすい表現を学習することを示す。
論文 参考訳(メタデータ) (2023-09-22T17:59:14Z) - Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information [5.604859261995801]
本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。
目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。
本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
論文 参考訳(メタデータ) (2021-10-21T05:34:25Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。