論文の概要: Pre-Training for Robots: Offline RL Enables Learning New Tasks from a
Handful of Trials
- arxiv url: http://arxiv.org/abs/2210.05178v1
- Date: Tue, 11 Oct 2022 06:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:42:24.604021
- Title: Pre-Training for Robots: Offline RL Enables Learning New Tasks from a
Handful of Trials
- Title(参考訳): ロボットの事前訓練:オフラインRLで試行錯誤から新しいタスクを学習できる
- Authors: Aviral Kumar, Anikait Singh, Frederik Ebert, Yanlai Yang, Chelsea
Finn, Sergey Levine
- Abstract要約: 我々は,既存のロボットデータセットの事前学習と,新しいタスクの迅速な微調整を,最大10回のデモで組み合わせることで,新しいタスクを効果的に学習するロボットのための事前訓練を提案する。
PTRは、実際のWidowXロボット上の新しいドメインで新しいタスクを学ぶのに成功し、最大10タスクのデモを行う最初のオフラインRLメソッドである。
- 参考スコア(独自算出の注目度): 118.52856399876067
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent progress in deep learning highlights the tremendous potential of
utilizing diverse datasets for achieving effective generalization and makes it
enticing to consider leveraging broad datasets for attaining more robust
generalization in robotic learning as well. However, in practice we likely will
want to learn a new skill in a new environment that is unlikely to be contained
in the prior data. Therefore we ask: how can we leverage existing diverse
offline datasets in combination with small amounts of task-specific data to
solve new tasks, while still enjoying the generalization benefits of training
on large amounts of data? In this paper, we demonstrate that end-to-end offline
RL can be an effective approach for doing this, without the need for any
representation learning or vision-based pre-training. We present pre-training
for robots (PTR), a framework based on offline RL that attempts to effectively
learn new tasks by combining pre-training on existing robotic datasets with
rapid fine-tuning on a new task, with as a few as 10 demonstrations. At its
core, PTR applies an existing offline RL method such as conservative Q-learning
(CQL), but extends it to include several crucial design decisions that enable
PTR to actually work and outperform a variety of prior methods. To the best of
our knowledge, PTR is the first offline RL method that succeeds at learning new
tasks in a new domain on a real WidowX robot with as few as 10 task
demonstrations, by effectively leveraging an existing dataset of diverse
multi-task robot data collected in a variety of toy kitchens. Our
implementation can be found at: https://github.com/Asap7772/PTR.
- Abstract(参考訳): ディープラーニングの最近の進歩は、効果的な一般化を達成するために多種多様なデータセットを利用する大きな可能性を浮き彫りにしている。
しかし、実際には、以前のデータに含まれない新しい環境で新しいスキルを学びたいと考えています。
そこで、我々はどのようにして既存の多様なオフラインデータセットを、少数のタスク固有のデータと組み合わせて新しいタスクを解決し、大量のデータに対するトレーニングの一般化の利点を享受できるか?
本稿では,表現学習や視覚に基づく事前学習を必要とせずに,エンドツーエンドのオフラインRLが効果的に実現可能であることを示す。
我々は、既存のロボットデータセットの事前学習と、新しいタスクの迅速な微調整と、最大10個のデモを組み合わせることで、新しいタスクを効果的に学習するオフラインRLに基づくフレームワークであるPTR(Pre-training for Robot)を提案する。
コアとなるPTRは、保守的なQ-ラーニング(CQL)のような既存のオフラインRLメソッドを適用するが、PTRが実際に動作し、さまざまな先行メソッドよりも優れている、いくつかの重要な設計判断を含むように拡張する。
私たちの知る限りでは、PTRは、さまざまなおもちゃのキッチンで収集された多様なマルチタスクロボットデータのデータセットを効果的に活用することで、実際のWidowXロボットの新しいドメインで10個のタスクのデモを行うのに成功する最初のオフラインRLメソッドである。
実装はhttps://github.com/asap7772/ptrで確認できます。
関連論文リスト
- EXTRACT: Efficient Policy Learning by Extracting Transferable Robot Skills from Offline Data [22.471559284344462]
ほとんどの強化学習(RL)手法は、低レベルな行動空間上の最適ポリシーの学習に重点を置いている。
これらの手法はトレーニング環境ではうまく機能するが、新しいタスクに移行する柔軟性に欠ける。
我々は,従来の作業よりも短時間で新しいタスクを学習できる,スパースでイメージベースのロボット操作環境の実験を通じて実演する。
論文 参考訳(メタデータ) (2024-06-25T17:50:03Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Robotic Offline RL from Internet Videos via Value-Function Pre-Training [67.44673316943475]
ロボットオフラインRLにおける大規模ビデオデータセットを活用するシステムを開発した。
ビデオデータセットにおける価値学習は、下流のロボットオフラインRLに対して、他のアプローチよりも理解しやすい表現を学習することを示す。
論文 参考訳(メタデータ) (2023-09-22T17:59:14Z) - Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information [5.604859261995801]
本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。
目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。
本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
論文 参考訳(メタデータ) (2021-10-21T05:34:25Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。