論文の概要: Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers
- arxiv url: http://arxiv.org/abs/2403.12943v1
- Date: Tue, 19 Mar 2024 17:47:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:14:11.354488
- Title: Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers
- Title(参考訳): Vid2Robot: クロスアテンショントランスフォーマーを用いたエンドツーエンドのビデオ条件付きポリシー学習
- Authors: Vidhi Jain, Maria Attarian, Nikhil J Joshi, Ayzaan Wahid, Danny Driess, Quan Vuong, Pannag R Sanketi, Pierre Sermanet, Stefan Welker, Christine Chan, Igor Gilitschenski, Yonatan Bisk, Debidatta Dwibedi,
- Abstract要約: ロボットのための新しいエンドツーエンドビデオベース学習フレームワークであるVid2Robotを紹介した。
Vid2Robotは、操作タスクと現在の視覚的観察のデモビデオから、ロボットのアクションを直接生成する。
これは、人間のビデオとロボットの軌道の大規模なデータセットに基づいて訓練された統一表現モデルによって達成される。
- 参考スコア(独自算出の注目度): 36.497624484863785
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While large-scale robotic systems typically rely on textual instructions for tasks, this work explores a different approach: can robots infer the task directly from observing humans? This shift necessitates the robot's ability to decode human intent and translate it into executable actions within its physical constraints and environment. We introduce Vid2Robot, a novel end-to-end video-based learning framework for robots. Given a video demonstration of a manipulation task and current visual observations, Vid2Robot directly produces robot actions. This is achieved through a unified representation model trained on a large dataset of human video and robot trajectory. The model leverages cross-attention mechanisms to fuse prompt video features to the robot's current state and generate appropriate actions that mimic the observed task. To further improve policy performance, we propose auxiliary contrastive losses that enhance the alignment between human and robot video representations. We evaluate Vid2Robot on real-world robots, demonstrating a 20% improvement in performance compared to other video-conditioned policies when using human demonstration videos. Additionally, our model exhibits emergent capabilities, such as successfully transferring observed motions from one object to another, and long-horizon composition, thus showcasing its potential for real-world applications. Project website: vid2robot.github.io
- Abstract(参考訳): 大規模なロボットシステムは典型的にはテキストによるタスクの指示に頼っているが、この研究は別のアプローチを探っている。
このシフトは、人間の意図を解読し、物理的な制約や環境の中で実行可能なアクションに変換するロボットの能力を必要とする。
ロボットのための新しいエンドツーエンドビデオベース学習フレームワークであるVid2Robotを紹介した。
Vid2Robotは、操作タスクと現在の視覚的観察のデモビデオから、ロボットのアクションを直接生成する。
これは、人間のビデオとロボットの軌道の大規模なデータセットに基づいて訓練された統一表現モデルによって達成される。
このモデルは、クロスアテンション機構を利用して、ロボットの現在の状態にプロンプト映像の特徴を融合させ、観察されたタスクを模倣する適切なアクションを生成する。
そこで本研究では,人間とロボットの映像表現のアライメントを高めるための補助的コントラスト損失を提案する。
実世界のロボット上でのVid2Robotの評価を行い、人間のデモビデオを使用する場合の他のビデオ条件のポリシーと比較して20%の性能向上を示した。
さらに,本モデルでは,観測された物体から他の物体への運動の伝達に成功し,長距離合成などの創発的能力を示し,実世界の応用の可能性を示す。
プロジェクトウェブサイト:vid2robot.github.io
関連論文リスト
- Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation [74.70013315714336]
Gen2Actは、ゼロショットのヒューマンビデオ生成として言語条件の操作をキャストし、生成したビデオに対して単一のポリシーで実行します。
実世界の多様なシナリオにおいて,Gen2Actがロボットデータに存在しないタスクに対して,未知のオブジェクトタイプを操作したり,新たな動作を実行したりすることができることを示す。
論文 参考訳(メタデータ) (2024-09-24T17:57:33Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。