論文の概要: Structured World Models from Human Videos
- arxiv url: http://arxiv.org/abs/2308.10901v1
- Date: Mon, 21 Aug 2023 17:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 12:19:42.350754
- Title: Structured World Models from Human Videos
- Title(参考訳): 人間の映像からの構造化世界モデル
- Authors: Russell Mendonca, Shikhar Bahl, Deepak Pathak
- Abstract要約: 私たちは、現実世界で、複雑で一般的な行動を直接学習する問題に取り組みます。
そこで本研究では,ロボットが操作スキルを効率よく学習する手法を提案する。
- 参考スコア(独自算出の注目度): 45.08503470821952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of learning complex, general behaviors directly in the
real world. We propose an approach for robots to efficiently learn manipulation
skills using only a handful of real-world interaction trajectories from many
different settings. Inspired by the success of learning from large-scale
datasets in the fields of computer vision and natural language, our belief is
that in order to efficiently learn, a robot must be able to leverage
internet-scale, human video data. Humans interact with the world in many
interesting ways, which can allow a robot to not only build an understanding of
useful actions and affordances but also how these actions affect the world for
manipulation. Our approach builds a structured, human-centric action space
grounded in visual affordances learned from human videos. Further, we train a
world model on human videos and fine-tune on a small amount of robot
interaction data without any task supervision. We show that this approach of
affordance-space world models enables different robots to learn various
manipulation skills in complex settings, in under 30 minutes of interaction.
Videos can be found at https://human-world-model.github.io
- Abstract(参考訳): 我々は、現実世界で直接、複雑な一般的な行動を学ぶ問題に取り組む。
そこで本研究では,ロボットが操作スキルを効率的に学習する手法を提案する。
コンピュータビジョンと自然言語の分野での大規模データセットからの学習の成功に触発されて、ロボットは効率的に学習するためには、インターネット規模の人間のビデオデータを活用する必要があると考えています。
人間は多くの興味深い方法で世界と対話し、ロボットが有用な行動や余裕を理解するだけでなく、これらの行動が操作のために世界に与える影響も理解することができる。
我々のアプローチは、人間のビデオから学んだ視覚的余裕に基づく、構造化された人間中心のアクションスペースを構築する。
さらに,人間の映像のワールドモデルをトレーニングし,タスクの監督なしに少数のロボットインタラクションデータを微調整する。
本研究では,この空き空間世界モデルのアプローチにより,複雑な環境下で,30分以内のインタラクションでさまざまな操作スキルを学習することができることを示す。
ビデオはhttps://human-world-model.github.ioで見ることができる。
関連論文リスト
- Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。