論文の概要: RH20T: A Robotic Dataset for Learning Diverse Skills in One-Shot
- arxiv url: http://arxiv.org/abs/2307.00595v1
- Date: Sun, 2 Jul 2023 15:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 15:05:11.141614
- Title: RH20T: A Robotic Dataset for Learning Diverse Skills in One-Shot
- Title(参考訳): RH20T:ワンショットで多様なスキルを学習するロボットデータセット
- Authors: Hao-Shu Fang, Hongjie Fang, Zhenyu Tang, Jirong Liu, Junbo Wang, Haoyi
Zhu, Cewu Lu
- Abstract要約: オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
- 参考スコア(独自算出の注目度): 49.803184619978545
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A key challenge in robotic manipulation in open domains is how to acquire
diverse and generalizable skills for robots. Recent research in one-shot
imitation learning has shown promise in transferring trained policies to new
tasks based on demonstrations. This feature is attractive for enabling robots
to acquire new skills and improving task and motion planning. However, due to
limitations in the training dataset, the current focus of the community has
mainly been on simple cases, such as push or pick-place tasks, relying solely
on visual guidance. In reality, there are many complex skills, some of which
may even require both visual and tactile perception to solve. This paper aims
to unlock the potential for an agent to generalize to hundreds of real-world
skills with multi-modal perception. To achieve this, we have collected a
dataset comprising over 110,000 \emph{contact-rich} robot manipulation
sequences across diverse skills, contexts, robots, and camera viewpoints, all
collected \emph{in the real world}. Each sequence in the dataset includes
visual, force, audio, and action information, along with a corresponding human
demonstration video. We have invested significant efforts in calibrating all
the sensors and ensuring a high-quality dataset. The dataset is made publicly
available at rh20t.github.io
- Abstract(参考訳): オープンドメインでのロボット操作における重要な課題は、ロボットの多様な一般化可能なスキルの獲得方法である。
ワンショット模倣学習における最近の研究は、訓練されたポリシーをデモに基づいて新しいタスクに移す約束を示している。
この機能は、ロボットが新しいスキルを身につけ、タスクや動きの計画を改善するのに役立ちます。
しかしながら、トレーニングデータセットの制限のため、コミュニティの現在の焦点は主に、視覚的なガイダンスのみに依存するプッシュやピックプレースタスクのような単純なケースに置かれている。
現実には、多くの複雑なスキルがあり、そのいくつかは、視覚と触覚の両方の知覚を必要とする。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
そこで本研究では,実世界における110,000以上のemph{contact-rich}ロボット操作シーケンスからなるデータセットを,さまざまなスキル,コンテキスト,ロボット,カメラ視点で収集した。
データセットの各シーケンスには、視覚、力、音声、アクション情報と対応する人間のデモンストレーションビデオが含まれている。
我々は、すべてのセンサーの校正と高品質なデータセットの確保に多大な努力を払っています。
データセットはrh20t.github.ioで公開されている
関連論文リスト
- VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。
われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。
実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。