Fugu-MT 論文翻訳(概要): Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation

論文の概要: Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation

arxiv url: http://arxiv.org/abs/2405.01527v2
Date: Thu, 8 Aug 2024 23:18:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-12 20:10:25.559868
Title: Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation
Title（参考訳）: Track2Act:インターネットビデオからポイントトラックを予測することで、汎用的なロボット操作を可能にする
Authors: Homanga Bharadhwaj, Roozbeh Mottaghi, Abhinav Gupta, Shubham Tulsiani,
Abstract要約: 我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
参考スコア（独自算出の注目度）: 65.46610405509338
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We seek to learn a generalizable goal-conditioned policy that enables zero-shot robot manipulation: interacting with unseen objects in novel scenes without test-time adaptation. While typical approaches rely on a large amount of demonstration data for such generalization, we propose an approach that leverages web videos to predict plausible interaction plans and learns a task-agnostic transformation to obtain robot actions in the real world. Our framework,Track2Act predicts tracks of how points in an image should move in future time-steps based on a goal, and can be trained with diverse videos on the web including those of humans and robots manipulating everyday objects. We use these 2D track predictions to infer a sequence of rigid transforms of the object to be manipulated, and obtain robot end-effector poses that can be executed in an open-loop manner. We then refine this open-loop plan by predicting residual actions through a closed loop policy trained with a few embodiment-specific demonstrations. We show that this approach of combining scalably learned track prediction with a residual policy requiring minimal in-domain robot-specific data enables diverse generalizable robot manipulation, and present a wide array of real-world robot manipulation results across unseen tasks, objects, and scenes. https://homangab.github.io/track2act/
Abstract（参考訳）: 我々は、ゼロショットロボット操作を可能にする汎用的な目標条件付きポリシーを学習し、テスト時間適応なしに、新しいシーンで見えない物体と対話する。一般的な手法は、そのような一般化のための大量の実演データに依存しているが、我々は、Webビデオを活用して、もっともらしい対話計画を予測するアプローチを提案し、実世界でロボットの動作を得るためのタスク非依存の変換を学習する。我々のフレームワークであるTrack2Actは、ゴールに基づいて、画像内のポイントが将来のタイムステップでどのように動くかを予測する。これらの2次元トラック予測を用いて、操作対象物の剛体変換列を推定し、オープンループで実行可能なロボットエンドエフェクタのポーズを得る。次に、いくつかの具体的デモンストレーションで訓練された閉ループポリシーにより、残余動作を予測することにより、このオープンループ計画を洗練する。本手法は,学習可能なトラック予測と最小限のドメイン内ロボット固有のデータを必要とする残ポリシーを組み合わせることで,多種多様な汎用可能なロボット操作を可能にし,未知のタスク,オブジェクト,シーンにまたがるさまざまな実世界のロボット操作結果を示す。 https://homangab.github.io/track2act/

関連論文リスト

Vidar: Embodied Video Diffusion Model for Generalist Bimanual Manipulation [21.424029706788883]
アクション推論のためのビデオ拡散(Vidar)について紹介する。実世界の3つのロボットプラットフォームから、750Kのマルチビュービデオ上で、ビデオ拡散モデルを事前訓練する。ロボットプラットフォーム上での人間によるデモはわずか20分で終わるが、Vidarは目に見えないタスクや背景を、強力なセマンティックな理解で一般化する。
論文参考訳（メタデータ） (2025-07-17T08:31:55Z)
3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model [40.730112146035076]
主な理由は、ロボットの操作スキルを教えるための、大きく均一なデータセットがないことだ。現在のロボットデータセットは、単純なシーン内で異なるアクション空間でロボットのアクションを記録することが多い。我々は人間とロボットの操作データから3次元フローワールドモデルを学ぶ。
論文参考訳（メタデータ） (2025-06-06T16:00:31Z)
ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos [15.809468471562537]
ZeroMimicは、複数の共通操作タスクに対して、イメージ目標条件のスキルポリシーを生成する。我々は,ZeroMimicのアウト・オブ・ボックス性能を実環境やシミュレートされたキッチン設定で評価した。他のタスク設定やロボット上でZeroMimicポリシーをプラグアンドプレイで再利用するために、ソフトウェアとポリシーチェックポイントをリリースする。
論文参考訳（メタデータ） (2025-03-31T09:27:00Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation [74.70013315714336]
Gen2Actは、ゼロショットのヒューマンビデオ生成として言語条件の操作をキャストし、生成したビデオに対して単一のポリシーで実行します。実世界の多様なシナリオにおいて,Gen2Actがロボットデータに存在しないタスクに対して,未知のオブジェクトタイプを操作したり,新たな動作を実行したりすることができることを示す。
論文参考訳（メタデータ） (2024-09-24T17:57:33Z)
Vision-based Manipulation from Single Human Video with Open-World Object Graphs [58.23098483464538]
我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。 ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出することで,この問題に対処するアルゴリズムである。
論文参考訳（メタデータ） (2024-05-30T17:56:54Z)
Towards Generalizable Zero-Shot Manipulation via Translating Human Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文参考訳（メタデータ） (2023-12-01T18:54:12Z)
Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文参考訳（メタデータ） (2023-05-10T16:25:42Z)
Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。我々の枠組みは、人間の手の動きを予測することに基づいている。トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文参考訳（メタデータ） (2023-02-03T21:39:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。