論文の概要: X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale
- arxiv url: http://arxiv.org/abs/2512.04537v1
- Date: Thu, 04 Dec 2025 07:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.051126
- Title: X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale
- Title(参考訳): X-Humanoid:人型動画を大規模に生成するロボット
- Authors: Pei Yang, Hai Ci, Yiren Song, Mike Zheng Shou,
- Abstract要約: X-Humanoidは、強力なWan 2.2モデルをビデオ間構造に適応させ、人-人-人-翻訳タスクに微調整する生成的ビデオ編集手法である。
トレーニングされたモデルを60時間のEgo-Exo4Dビデオに適用し,360万以上の“ロボット化された”ヒューマノイドビデオフレームからなる,新たな大規模データセットの生成とリリースを行います。
- 参考スコア(独自算出の注目度): 59.36026074638773
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The advancement of embodied AI has unlocked significant potential for intelligent humanoid robots. However, progress in both Vision-Language-Action (VLA) models and world models is severely hampered by the scarcity of large-scale, diverse training data. A promising solution is to "robotize" web-scale human videos, which has been proven effective for policy training. However, these solutions mainly "overlay" robot arms to egocentric videos, which cannot handle complex full-body motions and scene occlusions in third-person videos, making them unsuitable for robotizing humans. To bridge this gap, we introduce X-Humanoid, a generative video editing approach that adapts the powerful Wan 2.2 model into a video-to-video structure and finetunes it for the human-to-humanoid translation task. This finetuning requires paired human-humanoid videos, so we designed a scalable data creation pipeline, turning community assets into 17+ hours of paired synthetic videos using Unreal Engine. We then apply our trained model to 60 hours of the Ego-Exo4D videos, generating and releasing a new large-scale dataset of over 3.6 million "robotized" humanoid video frames. Quantitative analysis and user studies confirm our method's superiority over existing baselines: 69% of users rated it best for motion consistency, and 62.1% for embodiment correctness.
- Abstract(参考訳): 具体化されたAIの進歩は、インテリジェントなヒューマノイドロボットにとって大きな可能性を解き放った。
しかし、VLA(Vision-Language-Action)モデルとワールドモデルの両方の進歩は、大規模で多様なトレーニングデータの不足によって著しく妨げられている。
有望な解決策は、政策訓練に有効であることが証明されたウェブスケールの人間ビデオの「ロボット化」である。
しかし、これらのソリューションは主に、ロボットアームを人間中心のビデオに"オーバーレイ"し、複雑な全身の動きやシーンの閉塞を3人称ビデオでは扱えないため、人間をロボット化するには不適当である。
このギャップを埋めるために、私たちは強力なWan 2.2モデルをビデオ間構造に適応させ、人-人-人-翻訳タスクのために微調整する生成的ビデオ編集アプローチであるX-Humanoidを紹介した。
そこで我々は、スケーラブルなデータ生成パイプラインを設計し、コミュニティの資産をUnreal Engineを使った17時間以上の合成ビデオに変換する。
次に、トレーニングされたモデルをEgo-Exo4Dビデオの60時間に応用し、360万以上の「ロボット化された」ヒューマノイドビデオフレームの大規模なデータセットを生成し、リリースします。
定量的分析とユーザスタディにより,既存のベースラインよりも優れていることが確認された。69%のユーザが動作の整合性に最良と評価し,62.1%がエンボディメントの正しさに最良と評価した。
関連論文リスト
- From Generated Human Videos to Physically Plausible Robot Trajectories [103.28274349461607]
ビデオ生成モデルは、人間のアクションを新しい文脈で合成する能力が急速に向上している。
この可能性を実現するために、ヒューマノイドはどうやってゼロショットで生成されたビデオから人間の行動を実行することができるのか?
この課題は、生成されたビデオがしばしばうるさいので、実際のビデオと比べて直接の模倣を困難にする形態的歪みを示すためである。
我々は,3次元キーポイントに条件付き物理対応強化学習政策であるGenMimicを提案し,対称性の正則化とキーポイント重み付きトラッキング報酬を訓練した。
論文 参考訳(メタデータ) (2025-12-04T18:56:03Z) - MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training [40.45924128424013]
低コストな人間によるデモンストレーションをロボットで使用可能な監視に変換するフレームワークであるMimicDreamerを提案する。
視覚的アライメントのために,高忠実度ロボットデモビデオを生成するビデオ拡散モデルH2R Alignerを提案する。
視点安定化のためにEgoStabilizerを提案する。
動作アライメントのために,人間の手の動きをロボットフレームにマッピングし,制約付き逆運動学解法を適用する。
論文 参考訳(メタデータ) (2025-09-26T11:05:10Z) - EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos [49.820119587446655]
本稿では,エゴセントリックな人間ビデオを用いたVLA(Vision-Language-Action)モデルのトレーニングについて検討する。
人間の手首と手の動きを予測する人間のビデオに基づいて訓練されたVLAによって、私たちはInverse Kinematicsを実行し、人間のアクションをロボットアクションに変換することができる。
シミュレーションベンチマークであるEgo Humanoid Manipulation Benchmarkを提案する。
論文 参考訳(メタデータ) (2025-07-16T17:27:44Z) - HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。