Fugu-MT 論文翻訳(概要): OmniHumanoid: Streaming Cross-Embodiment Video Generation with Paired-Free Adaptation

論文の概要: OmniHumanoid: Streaming Cross-Embodiment Video Generation with Paired-Free Adaptation

arxiv url: http://arxiv.org/abs/2605.12038v1
Date: Tue, 12 May 2026 12:21:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 21:48:56.851799
Title: OmniHumanoid: Streaming Cross-Embodiment Video Generation with Paired-Free Adaptation
Title（参考訳）: OmniHumanoid:Paired-Free Adaptationによるクロスボディ映像のストリーミング
Authors: Yiren Song, Xiyao Deng, Pei Yang, Yihan Wang, Mike Zheng Shou,
Abstract要約: クロス・エボディメント・ビデオ・ジェネレーションは、異なるヒューマノイド・エンボディメント間での動きを転送することを目的としている。 OmniHumanoidは、移動可能な運動学習とエンボディメント固有の適応を分解するフレームワークである。
参考スコア（独自算出の注目度）: 63.65885191759872
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Cross-embodiment video generation aims to transfer motions across different humanoid embodiments, such as human-to-robot and robot-to-robot, enabling scalable data generation for embodied intelligence. A major challenge in this setting is that motion dynamics are partly transferable across embodiments, whereas appearance and morphology remain embodiment-specific. Existing approaches often entangle these factors, and many require paired data for every target embodiment, which limits scalability to new robots. We present OmniHumanoid, a framework that factorizes transferable motion learning and embodiment-specific adaptation. Our method learns a shared motion transfer model from motion-aligned paired videos spanning multiple embodiments, while adapting to a new embodiment using only unpaired videos through lightweight embodiment-specific adapters. To reduce interference between motion transfer and embodiment adaptation, we further introduce a branch-isolated attention design that separates motion conditioning from embodiment-specific modulation. In addition, we construct a synthetic cross-embodiment dataset with motion-aligned paired videos rendered across diverse humanoid assets, scenes, and viewpoints. Experiments on both synthetic and real-world benchmarks show that OmniHumanoid achieves strong motion fidelity and embodiment consistency, while enabling scalable adaptation to unseen humanoid embodiments without retraining the shared motion model.
Abstract（参考訳）: クロスエボディメントビデオ生成は、人間とロボット、ロボットとロボットなどの異なるヒューマノイドのエンボディメント間で動きを転送することを目的としており、エンボディドインテリジェンスのためのスケーラブルなデータ生成を可能にする。この設定における大きな課題は、運動力学が部分的にエンボディメント間で伝達可能であるのに対して、外見と形態はエンボディメント固有のものであることである。既存のアプローチは、これらの要因を絡み合わせることが多く、その多くは、新しいロボットにスケーラビリティを制限した、ターゲットの具体化毎にペア化されたデータを必要とする。 OmniHumanoidは、移動可能な運動学習とエンボディメント固有の適応を分解するフレームワークである。本手法は,複数のエンボディメントにまたがる動きの一致したペアビデオから,軽量エンボディメント専用アダプタを用いて,未ペアビデオのみを用いて,共有モーショントランスファーモデルを学習する。動作伝達と実施適応の干渉を低減するため,動作条件と実施特化変調を分離する分岐分離型注意設計を導入する。さらに, 多様なヒューマノイド資産, シーン, 視点にまたがる動きに整合したビデオを用いた, 人工的クロスボデーメントデータセットを構築した。 OmniHumanoid の人工的および実世界のベンチマーク実験により、OmniHumanoid は強い動きの忠実度とエンボディメントの整合性を達成し、共有運動モデルを再学習することなく、見えないヒューマノイドのエンボディメントへのスケーラブルな適応を可能にした。

関連論文リスト

Bridging the Embodiment Gap: Disentangled Cross-Embodiment Video Editing [35.3765036136913]
本稿では,クロス・エボディメント・ビデオ編集のための生成フレームワークを提案する。本手法は,2つの競合対象を強制することにより,実演映像を2つの潜在空間に分解する。パラメータ効率の良いアダプタは、これらの潜伏コードを凍結ビデオ拡散モデルに注入し、コヒーレントロボット実行ビデオの合成を可能にする。
論文参考訳（メタデータ） (2026-05-05T11:09:41Z)
AdaMorph: Unified Motion Retargeting via Embodiment-Aware Adaptive Transformers [49.796014934503184]
本研究では、単一モデルで多様なロボット形態に人間の動きを適応させることができる統一型ニューラルネットワークフレームワークを提案する。 12個の異なるヒューマノイドロボットの実験結果から、AdaMorphが異種トポロジにわたって効果的に制御できることが示されている。
論文参考訳（メタデータ） (2026-01-12T07:39:38Z)
EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文参考訳（メタデータ） (2025-12-21T17:08:14Z)
AnchorDream: Repurposing Video Diffusion for Embodiment-Aware Robot Data Synthesis [33.90053396451562]
AnchorDreamは、ロボットデータ合成のための事前学習されたビデオ拡散モデルを再利用した、エンボディメントを意識した世界モデルである。本手法は,環境モデリングを必要とせず,大規模で多様な高品質なデータセットにスケールする。実験の結果、生成されたデータは下流の政策学習において一貫した改善をもたらし、シミュレータのベンチマークでは36.4%、現実世界の研究ではほぼ2倍の性能を示した。
論文参考訳（メタデータ） (2025-12-12T18:59:45Z)
SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文参考訳（メタデータ） (2023-11-27T14:32:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。