論文の概要: Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation
- arxiv url: http://arxiv.org/abs/2405.01527v2
- Date: Thu, 8 Aug 2024 23:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 20:10:25.559868
- Title: Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation
- Title(参考訳): Track2Act:インターネットビデオからポイントトラックを予測することで、汎用的なロボット操作を可能にする
- Authors: Homanga Bharadhwaj, Roozbeh Mottaghi, Abhinav Gupta, Shubham Tulsiani,
- Abstract要約: 我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
- 参考スコア(独自算出の注目度): 65.46610405509338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We seek to learn a generalizable goal-conditioned policy that enables zero-shot robot manipulation: interacting with unseen objects in novel scenes without test-time adaptation. While typical approaches rely on a large amount of demonstration data for such generalization, we propose an approach that leverages web videos to predict plausible interaction plans and learns a task-agnostic transformation to obtain robot actions in the real world. Our framework,Track2Act predicts tracks of how points in an image should move in future time-steps based on a goal, and can be trained with diverse videos on the web including those of humans and robots manipulating everyday objects. We use these 2D track predictions to infer a sequence of rigid transforms of the object to be manipulated, and obtain robot end-effector poses that can be executed in an open-loop manner. We then refine this open-loop plan by predicting residual actions through a closed loop policy trained with a few embodiment-specific demonstrations. We show that this approach of combining scalably learned track prediction with a residual policy requiring minimal in-domain robot-specific data enables diverse generalizable robot manipulation, and present a wide array of real-world robot manipulation results across unseen tasks, objects, and scenes. https://homangab.github.io/track2act/
- Abstract(参考訳): 我々は、ゼロショットロボット操作を可能にする汎用的な目標条件付きポリシーを学習し、テスト時間適応なしに、新しいシーンで見えない物体と対話する。
一般的な手法は、そのような一般化のための大量の実演データに依存しているが、我々は、Webビデオを活用して、もっともらしい対話計画を予測するアプローチを提案し、実世界でロボットの動作を得るためのタスク非依存の変換を学習する。
我々のフレームワークであるTrack2Actは、ゴールに基づいて、画像内のポイントが将来のタイムステップでどのように動くかを予測する。
これらの2次元トラック予測を用いて、操作対象物の剛体変換列を推定し、オープンループで実行可能なロボットエンドエフェクタのポーズを得る。
次に、いくつかの具体的デモンストレーションで訓練された閉ループポリシーにより、残余動作を予測することにより、このオープンループ計画を洗練する。
本手法は,学習可能なトラック予測と最小限のドメイン内ロボット固有のデータを必要とする残ポリシーを組み合わせることで,多種多様な汎用可能なロボット操作を可能にし,未知のタスク,オブジェクト,シーンにまたがるさまざまな実世界のロボット操作結果を示す。
https://homangab.github.io/track2act/
関連論文リスト
- Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation [74.70013315714336]
Gen2Actは、ゼロショットのヒューマンビデオ生成として言語条件の操作をキャストし、生成したビデオに対して単一のポリシーで実行します。
実世界の多様なシナリオにおいて,Gen2Actがロボットデータに存在しないタスクに対して,未知のオブジェクトタイプを操作したり,新たな動作を実行したりすることができることを示す。
論文 参考訳(メタデータ) (2024-09-24T17:57:33Z) - Vision-based Manipulation from Single Human Video with Open-World Object Graphs [58.23098483464538]
我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。
ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出することで,この問題に対処するアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-30T17:56:54Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。