論文の概要: Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations
- arxiv url: http://arxiv.org/abs/2307.05959v1
- Date: Wed, 12 Jul 2023 07:04:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 13:59:28.895339
- Title: Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations
- Title(参考訳): ロボットに手を与える: 目で見る人間のビデオデモで汎用的な操作を学ぶ
- Authors: Moo Jin Kim, Jiajun Wu, Chelsea Finn
- Abstract要約: 眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
- 参考スコア(独自算出の注目度): 66.47064743686953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Eye-in-hand cameras have shown promise in enabling greater sample efficiency
and generalization in vision-based robotic manipulation. However, for robotic
imitation, it is still expensive to have a human teleoperator collect large
amounts of expert demonstrations with a real robot. Videos of humans performing
tasks, on the other hand, are much cheaper to collect since they eliminate the
need for expertise in robotic teleoperation and can be quickly captured in a
wide range of scenarios. Therefore, human video demonstrations are a promising
data source for learning generalizable robotic manipulation policies at scale.
In this work, we augment narrow robotic imitation datasets with broad unlabeled
human video demonstrations to greatly enhance the generalization of eye-in-hand
visuomotor policies. Although a clear visual domain gap exists between human
and robot data, our framework does not need to employ any explicit domain
adaptation method, as we leverage the partial observability of eye-in-hand
cameras as well as a simple fixed image masking scheme. On a suite of eight
real-world tasks involving both 3-DoF and 6-DoF robot arm control, our method
improves the success rates of eye-in-hand manipulation policies by 58%
(absolute) on average, enabling robots to generalize to both new environment
configurations and new tasks that are unseen in the robot demonstration data.
See video results at https://giving-robots-a-hand.github.io/ .
- Abstract(参考訳): 眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
しかし、ロボットの模倣では、人間の遠隔操作者が本物のロボットで大量の専門家のデモンストレーションを収集することは依然として高価である。
一方、人間がタスクを実行するビデオは、ロボット遠隔操作の専門知識を排除し、広範囲のシナリオで素早く撮影できるため、収集のコストがはるかに安い。
したがって、人間のビデオデモは、汎用的なロボット操作ポリシーを大規模に学習するための有望なデータソースである。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
人間とロボットのデータの間には明確な視覚領域ギャップが存在するが,アイ・イン・ハンドカメラの部分的可観測性や簡易な固定画像マスク方式を活用するため,明示的なドメイン適応手法は不要である。
3-DoFと6-DoFの両方のロボットアーム制御を含む8つの実世界のタスクにおいて、ロボットがロボットのデモデータに見られない新しい環境構成と新しいタスクの両方を一般化できるように、平均58%(絶対)の目の操作ポリシーの成功率を改善する。
https://giving-robots-a-hand.github.io/のビデオ結果を参照。
関連論文リスト
- Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - VideoDex: Learning Dexterity from Internet Videos [27.49510986378025]
私たちは、人間の手を使ったインターネットビデオという、現実世界での体験として、次のベストなものを活用することを提案する。
視覚的特徴などの視覚的先行情報は、しばしばビデオから学習されるが、ビデオからのより多くの情報は、より強力な先行として利用することができる。
我々は、人間のビデオデータセットから視覚的、行動的、身体的優先事項を活用する学習アルゴリズム、VideoDexを構築し、ロボットの振る舞いをガイドする。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - From One Hand to Multiple Hands: Imitation Learning for Dexterous
Manipulation from Single-Camera Teleoperation [26.738893736520364]
我々は,iPadとコンピュータのみで3Dデモを効率的に収集する,新しい単一カメラ遠隔操作システムを提案する。
我々は,操作者の手の構造と形状が同じであるマニピュレータである物理シミュレータにおいて,各ユーザ向けにカスタマイズされたロボットハンドを構築する。
データを用いた模倣学習では、複数の複雑な操作タスクでベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2022-04-26T17:59:51Z) - Robotic Telekinesis: Learning a Robotic Hand Imitator by Watching Humans
on Youtube [24.530131506065164]
我々は、人間なら誰でもロボットの手と腕を制御できるシステムを構築します。
ロボットは、人間のオペレーターを1台のRGBカメラで観察し、その動作をリアルタイムで模倣する。
我々はこのデータを利用して、人間の手を理解するシステムを訓練し、人間のビデオストリームをスムーズで、素早く、安全に、意味論的に誘導デモに類似したロボットのハンドアーム軌道に再ターゲティングする。
論文 参考訳(メタデータ) (2022-02-21T18:59:59Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。