論文の概要: EmbodiSwap for Zero-Shot Robot Imitation Learning
- arxiv url: http://arxiv.org/abs/2510.03706v1
- Date: Sat, 04 Oct 2025 07:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.206726
- Title: EmbodiSwap for Zero-Shot Robot Imitation Learning
- Title(参考訳): ゼロショットロボット模倣学習のためのEmbodiSwap
- Authors: Eadom Dessalene, Pavan Mantripragada, Michael Maynord, Yiannis Aloimonos,
- Abstract要約: EmbodiSwapは、人間のビデオ上で合成ロボットをオーバーレイする手法である。
我々はEmbodiSwapをゼロショットの模倣学習に利用し、Wild Ego中心の人間ビデオとターゲットロボットのエンボディメントとの間のエンボディメントギャップを埋める。
我々は,V-JEPAを視覚バックボーンとして,ビデオ理解の領域から,合成ロボットビデオによる模倣学習へと再開発する。
- 参考スコア(独自算出の注目度): 16.98296957464262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce EmbodiSwap - a method for producing photorealistic synthetic robot overlays over human video. We employ EmbodiSwap for zero-shot imitation learning, bridging the embodiment gap between in-the-wild ego-centric human video and a target robot embodiment. We train a closed-loop robot manipulation policy over the data produced by EmbodiSwap. We make novel use of V-JEPA as a visual backbone, repurposing V-JEPA from the domain of video understanding to imitation learning over synthetic robot videos. Adoption of V-JEPA outperforms alternative vision backbones more conventionally used within robotics. In real-world tests, our zero-shot trained V-JEPA model achieves an $82\%$ success rate, outperforming a few-shot trained $\pi_0$ network as well as $\pi_0$ trained over data produced by EmbodiSwap. We release (i) code for generating the synthetic robot overlays which takes as input human videos and an arbitrary robot URDF and generates a robot dataset, (ii) the robot dataset we synthesize over EPIC-Kitchens, HOI4D and Ego4D, and (iii) model checkpoints and inference code, to facilitate reproducible research and broader adoption.
- Abstract(参考訳): EmbodiSwapは、人間のビデオ上で光リアルな合成ロボットをオーバーレイする手法である。
我々はEmbodiSwapをゼロショットの模倣学習に利用し、Wild Ego中心の人間ビデオとターゲットロボットのエンボディメントとの間のエンボディメントギャップを埋める。
我々は、EmbodiSwapが作成したデータに対して、クローズドループロボット操作ポリシーを訓練する。
我々は,V-JEPAを視覚バックボーンとして,ビデオ理解の領域から,合成ロボットビデオによる模倣学習へと再開発する。
V-JEPAの採用は、従来ロボット工学で用いられてきた視覚バックボーンよりも優れている。
実世界のテストでは、ゼロショットトレーニングされたV-JEPAモデルは、EmbodiSwapが生成したデータに対してトレーニングされた$\pi_0$ネットワークと、数ショットトレーニングされた$\pi_0$ネットワークを上回り、成功率を82.5%で達成しています。
リリース
一 入力された人間ビデオ及び任意のロボットURDFをオーバーレイし、ロボットデータセットを生成する合成ロボット生成コード。
(II)EPIC-Kitchens,HOI4D,Ego4Dで合成したロボットデータセット
三 再現可能な研究及びより広範な採用を促進するためのモデルチェックポイント及び推論コード
関連論文リスト
- Mitty: Diffusion-based Human-to-Robot Video Generation [57.494785199352975]
我々は,Human2Robotビデオ生成のためのビデオインコンテクスト学習を可能にする拡散変換器であるMittyを提案する。
事前訓練されたビデオ拡散モデルに基づいて構築されたMittyは、強い視覚的時間的事前情報を利用して、人間のデモをアクションラベルや中間抽象化なしでロボット実行ビデオに変換する。
Human2RobotとEPIC-Kitchensの実験によると、Mittyは最先端の結果、目に見えない環境への強力な一般化、人間の観察からスケーラブルなロボット学習のための新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-12-19T05:52:15Z) - MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos [58.006918399913665]
本稿では,通常の人間と物体のインタラクションビデオからモーション一貫性のあるロボット操作ビデオに変換するビデオ間翻訳フレームワークを提案する。
私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。
テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。
論文 参考訳(メタデータ) (2025-12-10T07:59:45Z) - RobotSeg: A Model and Dataset for Segmenting Robots in Image and Video [56.9581053843815]
画像とビデオにおけるロボットセグメンテーションの基礎モデルであるRobotSegを紹介する。
ロボットへの適応の欠如、手動のプロンプトへの依存、フレーム単位のトレーニングマスクアノテーションの必要性に対処する。
それは、画像とビデオの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-28T07:51:02Z) - MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training [40.45924128424013]
低コストな人間によるデモンストレーションをロボットで使用可能な監視に変換するフレームワークであるMimicDreamerを提案する。
視覚的アライメントのために,高忠実度ロボットデモビデオを生成するビデオ拡散モデルH2R Alignerを提案する。
視点安定化のためにEgoStabilizerを提案する。
動作アライメントのために,人間の手の動きをロボットフレームにマッピングし,制約付き逆運動学解法を適用する。
論文 参考訳(メタデータ) (2025-09-26T11:05:10Z) - AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning [5.371855090716962]
視覚ロボットマニピュレーション(VRM)は、ロボットの状態と視覚的観察に基づいて、ロボットが自然言語の指示に従うことを可能にすることを目的としている。
既存のアプローチでは、大規模データを用いた視覚言語事前学習が採用されている。
我々は,大規模人間のアクションビデオデータセットから明示的な方法で学習することを提案する。
論文 参考訳(メタデータ) (2025-08-11T05:09:58Z) - DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - GR00T N1: An Open Foundation Model for Generalist Humanoid Robots [133.23509142762356]
汎用ロボットには多目的体と知的な心が必要だ。
近年のヒューマノイドロボットの進歩は、汎用的な自律性を構築するためのハードウェアプラットフォームとして大きな可能性を秘めている。
我々はヒューマノイドロボットのオープン基盤モデルであるGR00T N1を紹介する。
論文 参考訳(メタデータ) (2025-03-18T21:06:21Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。