論文の概要: Scalable Multi-Task Imitation Learning with Autonomous Improvement
- arxiv url: http://arxiv.org/abs/2003.02636v1
- Date: Tue, 25 Feb 2020 18:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 21:29:52.482771
- Title: Scalable Multi-Task Imitation Learning with Autonomous Improvement
- Title(参考訳): 自律的改善によるスケーラブルなマルチタスク模倣学習
- Authors: Avi Singh, Eric Jang, Alexander Irpan, Daniel Kappler, Murtaza Dalal,
Sergey Levine, Mohi Khansari, Chelsea Finn
- Abstract要約: 我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
- 参考スコア(独自算出の注目度): 159.9406205002599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While robot learning has demonstrated promising results for enabling robots
to automatically acquire new skills, a critical challenge in deploying
learning-based systems is scale: acquiring enough data for the robot to
effectively generalize broadly. Imitation learning, in particular, has remained
a stable and powerful approach for robot learning, but critically relies on
expert operators for data collection. In this work, we target this challenge,
aiming to build an imitation learning system that can continuously improve
through autonomous data collection, while simultaneously avoiding the explicit
use of reinforcement learning, to maintain the stability, simplicity, and
scalability of supervised imitation. To accomplish this, we cast the problem of
imitation with autonomous improvement into a multi-task setting. We utilize the
insight that, in a multi-task setting, a failed attempt at one task might
represent a successful attempt at another task. This allows us to leverage the
robot's own trials as demonstrations for tasks other than the one that the
robot actually attempted. Using an initial dataset of multi-task demonstration
data, the robot autonomously collects trials which are only sparsely labeled
with a binary indication of whether the trial accomplished any useful task or
not. We then embed the trials into a learned latent space of tasks, trained
using only the initial demonstration dataset, to draw similarities between
various trials, enabling the robot to achieve one-shot generalization to new
tasks. In contrast to prior imitation learning approaches, our method can
autonomously collect data with sparse supervision for continuous improvement,
and in contrast to reinforcement learning algorithms, our method can
effectively improve from sparse, task-agnostic reward signals.
- Abstract(参考訳): ロボット学習は、ロボットが新しいスキルを自動で獲得する上で有望な結果を示しているが、学習ベースのシステムをデプロイする上で重要な課題はスケールである。
特に模倣学習は、ロボット学習にとって安定的で強力なアプローチであり続けているが、データ収集には専門家のオペレーターに頼っている。
本研究では,自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築するとともに,強化学習の明示的な使用を回避し,教師付き模倣の安定性,簡易性,スケーラビリティを維持することを目的とする。
これを実現するため、自律的な改善を模倣した問題をマルチタスク環境に投入した。
マルチタスク環境では、あるタスクに対する失敗した試みは、別のタスクに対する成功した試みを表すかもしれないという洞察を利用する。
これにより、ロボットが実際に試みたタスク以外のタスクのデモンストレーションとして、ロボット自身の試行を活用できます。
マルチタスクのデモンストレーションデータの最初のデータセットを使用して、ロボットは自律的にトライアルを収集する。
そして、実験を学習された潜在タスク空間に埋め込み、最初のデモデータセットのみを使用してトレーニングし、さまざまな試行の類似性を引き出すことにより、ロボットが新しいタスクにワンショットの一般化を可能にする。
先行模倣学習手法とは対照的に,連続的改善のためにスパース監視を伴うデータを自律的に収集し,強化学習アルゴリズムとは対照的に,スパースでタスク非依存な報酬信号から効果的に改善することができる。
関連論文リスト
- Autonomous Improvement of Instruction Following Skills via Foundation Models [44.63552778566584]
自律的に収集された経験から改善できる知能的な指示追従ロボットは、ロボット学習を変革する可能性がある。
人的監督なしに自律的に収集したデータから、指示追従ポリシーを改善できる新しいアプローチを提案する。
実世界において、我々のアプローチの有効性を実証する広範な実験を行い、目に見えない環境のスイートにおいて、自律的に収集されたデータを用いてロボットポリシーを2倍に改善できることを見出した。
論文 参考訳(メタデータ) (2024-07-30T08:26:44Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Continual Robot Learning using Self-Supervised Task Inference [19.635428830237842]
新しいタスクを継続的に学習するための自己教師型タスク推論手法を提案する。
我々は、行動マッチング型自己教師型学習目標を用いて、新しいタスク推論ネットワーク(TINet)を訓練する。
マルチタスクポリシはTINet上に構築され、タスクよりもパフォーマンスを最適化するために強化学習でトレーニングされている。
論文 参考訳(メタデータ) (2023-09-10T09:32:35Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning [108.41464483878683]
本稿では,視覚に基づくロボット操作システムにおいて,新しいタスクを一般化することの課題について検討する。
実演と介入の両方から学ぶことができるインタラクティブで柔軟な模倣学習システムを開発した。
実際のロボットにおけるデータ収集を100以上のタスクにスケールすると、このシステムは平均的な成功率44%で24の目に見えない操作タスクを実行できる。
論文 参考訳(メタデータ) (2022-02-04T07:30:48Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。