論文の概要: Embody4D: A Generalist 4D World Model for Embodied AI
- arxiv url: http://arxiv.org/abs/2605.01799v1
- Date: Sun, 03 May 2026 09:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.944373
- Title: Embody4D: A Generalist 4D World Model for Embodied AI
- Title(参考訳): Embody4D: 体操AIのための汎用4Dワールドモデル
- Authors: Peiyan Tu, Hanxin Zhu, Jingwen Sun, Shaojie Ren, Cong Wang, Jiayi Luo, Xiaoqian Cheng, Zhibo Chen,
- Abstract要約: Embody4Dは、エンボディされたシナリオのための専用ビデオからビデオの世界モデルである。
モノクロビデオから任意の新しいビューを再生することができる。
最先端のパフォーマンスを実現し、堅牢な世界モデルとして機能する。
- 参考スコア(独自算出の注目度): 13.488596291534243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models have made significant progress in modeling dynamic environments; however, most embodied world models are still restricted to 2D representations, lacking the comprehensive multi-view information essential for embodied spatial reasoning. Bridging this gap is non-trivial, primarily due to challenges from severe scarcity of paired multi-view data, the difficulty of maintaining spatiotemporal consistency in generated 3D geometries, and the tendency to hallucinate manipulation details. To address these challenges, we propose Embody4D, a dedicated video-to-video world model for embodied scenarios, capable of synthesizing arbitrary novel views from a monocular video. First, to tackle data scarcity, we introduce a 3D-aware compositional synthesis pipeline to curate a heterogeneous dataset compositing cross-embodiment robotic arms with diverse backgrounds, guaranteeing broad generalization. Second, to enforce geometric stability, we devise an adaptive noise injection strategy; by leveraging confidence disparities across image regions, this method selectively regularizes the diffusion process to ensure strict spatiotemporal consistency. Finally, to guarantee manipulation fidelity, we incorporate an interaction-aware attention mechanism that explicitly attends to the robotic interaction regions. Extensive experiments demonstrate that Embody4D achieves state-of-the-art performance, serving as a robust world model that synthesizes high-fidelity, view-consistent videos to empower downstream robotic planning and learning.
- Abstract(参考訳): 世界モデルは、動的環境のモデリングにおいて大きな進歩を遂げてきたが、ほとんどの具現化された世界モデルは、まだ2次元表現に限られており、空間的推論に不可欠な包括的な多視点情報が欠如している。
このギャップを埋めることは、主に、ペア化された多視点データの深刻な不足、生成された3次元幾何学における時空間的一貫性を維持することの難しさ、そして操作の詳細を幻覚させる傾向があるため、簡単ではない。
これらの課題に対処するために,単眼ビデオから任意の新規ビューを合成可能な,仮想シナリオのための専用ビデオ・ビデオワールドモデルであるEmbody4Dを提案する。
まず、データ不足に対処するために、多種多様な背景を持つ異種ロボットアームを構成する異種データセットをキュレートし、広範な一般化を保証する3D対応合成パイプラインを導入する。
第2に, 画像領域間の信頼格差を活用することにより, 拡散過程を選択的に規則化し, 厳密な時空間整合性を確保する。
最後に,操作の忠実性を保証するため,ロボットのインタラクション領域に明示的に参加するインタラクション対応の注意機構を組み込んだ。
大規模な実験により、Embody4Dは最先端のパフォーマンスを達成し、下流のロボット計画と学習を強化するために、高忠実でビューに一貫性のあるビデオを合成する堅牢な世界モデルとして機能することが示された。
関連論文リスト
- RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - MV-Performer: Taming Video Diffusion Model for Faithful and Synchronized Multi-view Performer Synthesis [34.793258395288895]
モノクロフルボディキャプチャーから新しいビュービデオを作成するための革新的なフレームワークであるMV-Performerを提案する。
360度合成を実現するために、MVHumanNetデータセットを広範囲に活用し、情報伝達条件信号を取り込む。
生成したビデオの同期を維持するために,多視点の人間中心ビデオ拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-10-08T16:24:22Z) - SPATIALGEN: Layout-guided 3D Indoor Scene Generation [37.30623176278608]
本研究では,現実的でセマンティックに整合した室内シーンを生成するマルチビューマルチモーダル拡散モデルであるSpatialGenを提案する。
3次元レイアウトと参照画像が与えられたモデルでは、任意の視点から外観(カラー画像)、幾何学(シーン座標マップ)、意味(セマンティックセグメンテーションマップ)を合成する。
私たちは、コミュニティを力づけ、屋内のシーン理解と生成の分野を前進させるために、データとモデルをオープンソース化しています。
論文 参考訳(メタデータ) (2025-09-18T14:12:32Z) - Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - DSG-World: Learning a 3D Gaussian World Model from Dual State Videos [14.213608866611784]
本稿では,Dual Stateの観測から3次元ガウス世界モデルを明示的に構築する,新しいエンドツーエンドフレームワークDSG-Worldを提案する。
提案手法は、二分割対応ガウス場を構築し、双方向の測光および意味的整合性を実現する。
論文 参考訳(メタデータ) (2025-06-05T16:33:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。