論文の概要: EmbodiSwap for Zero-Shot Robot Imitation Learning
- arxiv url: http://arxiv.org/abs/2510.03706v1
- Date: Sat, 04 Oct 2025 07:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.206726
- Title: EmbodiSwap for Zero-Shot Robot Imitation Learning
- Title(参考訳): ゼロショットロボット模倣学習のためのEmbodiSwap
- Authors: Eadom Dessalene, Pavan Mantripragada, Michael Maynord, Yiannis Aloimonos,
- Abstract要約: EmbodiSwapは、人間のビデオ上で合成ロボットをオーバーレイする手法である。
我々はEmbodiSwapをゼロショットの模倣学習に利用し、Wild Ego中心の人間ビデオとターゲットロボットのエンボディメントとの間のエンボディメントギャップを埋める。
我々は,V-JEPAを視覚バックボーンとして,ビデオ理解の領域から,合成ロボットビデオによる模倣学習へと再開発する。
- 参考スコア(独自算出の注目度): 16.98296957464262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce EmbodiSwap - a method for producing photorealistic synthetic robot overlays over human video. We employ EmbodiSwap for zero-shot imitation learning, bridging the embodiment gap between in-the-wild ego-centric human video and a target robot embodiment. We train a closed-loop robot manipulation policy over the data produced by EmbodiSwap. We make novel use of V-JEPA as a visual backbone, repurposing V-JEPA from the domain of video understanding to imitation learning over synthetic robot videos. Adoption of V-JEPA outperforms alternative vision backbones more conventionally used within robotics. In real-world tests, our zero-shot trained V-JEPA model achieves an $82\%$ success rate, outperforming a few-shot trained $\pi_0$ network as well as $\pi_0$ trained over data produced by EmbodiSwap. We release (i) code for generating the synthetic robot overlays which takes as input human videos and an arbitrary robot URDF and generates a robot dataset, (ii) the robot dataset we synthesize over EPIC-Kitchens, HOI4D and Ego4D, and (iii) model checkpoints and inference code, to facilitate reproducible research and broader adoption.
- Abstract(参考訳): EmbodiSwapは、人間のビデオ上で光リアルな合成ロボットをオーバーレイする手法である。
我々はEmbodiSwapをゼロショットの模倣学習に利用し、Wild Ego中心の人間ビデオとターゲットロボットのエンボディメントとの間のエンボディメントギャップを埋める。
我々は、EmbodiSwapが作成したデータに対して、クローズドループロボット操作ポリシーを訓練する。
我々は,V-JEPAを視覚バックボーンとして,ビデオ理解の領域から,合成ロボットビデオによる模倣学習へと再開発する。
V-JEPAの採用は、従来ロボット工学で用いられてきた視覚バックボーンよりも優れている。
実世界のテストでは、ゼロショットトレーニングされたV-JEPAモデルは、EmbodiSwapが生成したデータに対してトレーニングされた$\pi_0$ネットワークと、数ショットトレーニングされた$\pi_0$ネットワークを上回り、成功率を82.5%で達成しています。
リリース
一 入力された人間ビデオ及び任意のロボットURDFをオーバーレイし、ロボットデータセットを生成する合成ロボット生成コード。
(II)EPIC-Kitchens,HOI4D,Ego4Dで合成したロボットデータセット
三 再現可能な研究及びより広範な採用を促進するためのモデルチェックポイント及び推論コード
関連論文リスト
- MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training [40.45924128424013]
低コストな人間によるデモンストレーションをロボットで使用可能な監視に変換するフレームワークであるMimicDreamerを提案する。
視覚的アライメントのために,高忠実度ロボットデモビデオを生成するビデオ拡散モデルH2R Alignerを提案する。
視点安定化のためにEgoStabilizerを提案する。
動作アライメントのために,人間の手の動きをロボットフレームにマッピングし,制約付き逆運動学解法を適用する。
論文 参考訳(メタデータ) (2025-09-26T11:05:10Z) - DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - GR00T N1: An Open Foundation Model for Generalist Humanoid Robots [133.23509142762356]
汎用ロボットには多目的体と知的な心が必要だ。
近年のヒューマノイドロボットの進歩は、汎用的な自律性を構築するためのハードウェアプラットフォームとして大きな可能性を秘めている。
我々はヒューマノイドロボットのオープン基盤モデルであるGR00T N1を紹介する。
論文 参考訳(メタデータ) (2025-03-18T21:06:21Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。