論文の概要: Affordances from Human Videos as a Versatile Representation for Robotics
- arxiv url: http://arxiv.org/abs/2304.08488v1
- Date: Mon, 17 Apr 2023 17:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 13:54:24.659391
- Title: Affordances from Human Videos as a Versatile Representation for Robotics
- Title(参考訳): ロボットのVersatile Representationとしてのヒューマンビデオの進歩
- Authors: Shikhar Bahl, Russell Mendonca, Lili Chen, Unnat Jain, Deepak Pathak
- Abstract要約: 我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
- 参考スコア(独自算出の注目度): 31.248842798600606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building a robot that can understand and learn to interact by watching humans
has inspired several vision problems. However, despite some successful results
on static datasets, it remains unclear how current models can be used on a
robot directly. In this paper, we aim to bridge this gap by leveraging videos
of human interactions in an environment centric manner. Utilizing internet
videos of human behavior, we train a visual affordance model that estimates
where and how in the scene a human is likely to interact. The structure of
these behavioral affordances directly enables the robot to perform many complex
tasks. We show how to seamlessly integrate our affordance model with four robot
learning paradigms including offline imitation learning, exploration,
goal-conditioned learning, and action parameterization for reinforcement
learning. We show the efficacy of our approach, which we call VRB, across 4
real world environments, over 10 different tasks, and 2 robotic platforms
operating in the wild. Results, visualizations and videos at
https://robo-affordances.github.io/
- Abstract(参考訳): 人間を観察することで理解し、対話を学べるロボットを作ることは、いくつかの視覚問題を引き起こした。
しかし、いくつかの静的データセットで成功した結果にもかかわらず、現在のモデルがロボットにどのように直接適用できるかは不明だ。
本稿では,人間のインタラクションの映像を環境中心の方法で活用することで,このギャップを埋めることを目的とする。
人間の行動のインターネットビデオを利用することで、人間の行動の場所と場所を推定する視覚的アベイランスモデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
我々は,オフライン模倣学習,探索,目標条件学習,および強化学習のための行動パラメータ化を含む4つのロボット学習パラダイムと,アフォーマンスモデルをシームレスに統合する方法を示す。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
結果、視覚化、ビデオ、https://robo-affordances.github.io/
関連論文リスト
- Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Structured World Models from Human Videos [45.08503470821952]
私たちは、現実世界で、複雑で一般的な行動を直接学習する問題に取り組みます。
そこで本研究では,ロボットが操作スキルを効率よく学習する手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T17:59:32Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。