論文の概要: Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos
- arxiv url: http://arxiv.org/abs/2103.16817v1
- Date: Wed, 31 Mar 2021 05:25:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:48:44.951387
- Title: Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos
- Title(参考訳): In-The-Wild」ヒューマンビデオからの一般化可能なロボットリワード関数の学習
- Authors: Annie S. Chen, Suraj Nair, Chelsea Finn
- Abstract要約: ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
- 参考スコア(独自算出の注目度): 59.58105314783289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are motivated by the goal of generalist robots that can complete a wide
range of tasks across many environments. Critical to this is the robot's
ability to acquire some metric of task success or reward, which is necessary
for reinforcement learning, planning, or knowing when to ask for help. For a
general-purpose robot operating in the real world, this reward function must
also be able to generalize broadly across environments, tasks, and objects,
while depending only on on-board sensor observations (e.g. RGB images). While
deep learning on large and diverse datasets has shown promise as a path towards
such generalization in computer vision and natural language, collecting high
quality datasets of robotic interaction at scale remains an open challenge. In
contrast, "in-the-wild" videos of humans (e.g. YouTube) contain an extensive
collection of people doing interesting tasks across a diverse range of
settings. In this work, we propose a simple approach, Domain-agnostic Video
Discriminator (DVD), that learns multitask reward functions by training a
discriminator to classify whether two videos are performing the same task, and
can generalize by virtue of learning from a small amount of robot data with a
broad dataset of human videos. We find that by leveraging diverse human
datasets, this reward function (a) can generalize zero shot to unseen
environments, (b) generalize zero shot to unseen tasks, and (c) can be combined
with visual model predictive control to solve robotic manipulation tasks on a
real WidowX200 robot in an unseen environment from a single human demo.
- Abstract(参考訳): 私たちは、様々な環境にまたがって幅広いタスクをこなせる汎用ロボットの目標に動機付けられています。
これに対して重要なのが、ロボットがタスクの成功や報酬のメトリクスを取得する能力であり、これは強化学習や計画、いつ助けを求めるべきかを知るのに必要である。
現実世界で動作している汎用ロボットの場合、この報酬機能は、オンボードセンサーの観測(例えば)のみに依存しながら、環境、タスク、オブジェクトにまたがって広く一般化することもできます。
RGB画像)。
大規模で多様なデータセットのディープラーニングは、コンピュータビジョンや自然言語の一般化への道のりとして期待されているが、大規模なロボットインタラクションの高品質なデータセットの収集は依然としてオープンな課題である。
対照的に、人間(例えば、)の「夢の中の」ビデオ。
YouTube)には、さまざまな設定で興味深いタスクを行う人々の大規模なコレクションが含まれています。
本研究では,2つの映像が同じタスクを遂行しているかどうかを識別する識別器を訓練することにより,マルチタスク報酬関数を学習し,少数のロボットデータから人間のビデオの広いデータセットで学習することにより一般化する,シンプルな手法であるドメイン非依存ビデオ判別器(dvd)を提案する。
多様な人間のデータセットを活用することで、(a)この報酬関数はゼロショットを未知の環境に一般化し、(b)ゼロショットを未知のタスクに一般化し、(c)視覚モデル予測制御と組み合わせて、実のWidowX200ロボット上のロボット操作タスクを、単一の人間のデモから解決することができる。
関連論文リスト
- Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。