論文の概要: WorldReel: 4D Video Generation with Consistent Geometry and Motion Modeling
- arxiv url: http://arxiv.org/abs/2512.07821v1
- Date: Mon, 08 Dec 2025 18:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:55.016202
- Title: WorldReel: 4D Video Generation with Consistent Geometry and Motion Modeling
- Title(参考訳): WorldReel:一貫した幾何学とモーションモデリングによる4Dビデオ生成
- Authors: Shaoheng Fang, Hanwen Jiang, Yunpeng Bai, Niloy J. Mitra, Qixing Huang,
- Abstract要約: We present WorldReel, a 4D video that are native-temporally consistent。
WorldReelは、ポイントマップ、カメラ軌道、高密度フローを含む4Dシーン表現と共にフレームを生成する。
We believe that WorldReel bring video generation to 4D-consistent world modeling。
- 参考スコア(独自算出の注目度): 63.37476802589492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent video generators achieve striking photorealism, yet remain fundamentally inconsistent in 3D. We present WorldReel, a 4D video generator that is natively spatio-temporally consistent. WorldReel jointly produces RGB frames together with 4D scene representations, including pointmaps, camera trajectory, and dense flow mapping, enabling coherent geometry and appearance modeling over time. Our explicit 4D representation enforces a single underlying scene that persists across viewpoints and dynamic content, yielding videos that remain consistent even under large non-rigid motion and significant camera movement. We train WorldReel by carefully combining synthetic and real data: synthetic data providing precise 4D supervision (geometry, motion, and camera), while real videos contribute visual diversity and realism. This blend allows WorldReel to generalize to in-the-wild footage while preserving strong geometric fidelity. Extensive experiments demonstrate that WorldReel sets a new state-of-the-art for consistent video generation with dynamic scenes and moving cameras, improving metrics of geometric consistency, motion coherence, and reducing view-time artifacts over competing methods. We believe that WorldReel brings video generation closer to 4D-consistent world modeling, where agents can render, interact, and reason about scenes through a single and stable spatiotemporal representation.
- Abstract(参考訳): 最近のビデオジェネレータは、印象的なフォトリアリズムを実現するが、基本的には3Dでは矛盾しない。
我々は4DビデオジェネレータWorldReelを,時空間的にネイティブに一貫した4Dビデオジェネレータとして紹介する。
WorldReelは、ポイントマップ、カメラ軌道、高密度フローマッピングを含む4Dシーン表現とともにRGBフレームを共同で生成し、時間とともにコヒーレントな幾何学と外観モデリングを可能にする。
我々の明示的な4D表現は、視点とダイナミックなコンテンツにまたがって持続する単一の基礎的なシーンを強制する。
合成データは正確な4D監視(幾何学、モーション、カメラ)を提供するが、実際のビデオは視覚的多様性とリアリズムに寄与する。
このブレンドによりWorldReelは、強力な幾何学的忠実さを維持しながら、Wild内の映像を一般化することができる。
大規模な実験により、WorldReelは、ダイナミックシーンと移動カメラによる一貫したビデオ生成、幾何学的一貫性のメトリクスの改善、モーションコヒーレンス、競合するメソッドに対するビュータイムアーティファクトの削減のために、新しい最先端の技術を設定している。
We believe that WorldReel bring video generation to 4D-consistent world modeling, where agent can render, interact, and reason about scene through a single and stable spatiotemporal representation。
関連論文リスト
- Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image [88.71287865590273]
そこでTrajScene-60Kについて紹介する。
拡散型4次元シーン軌道生成装置(4D-STraG)を提案する。
次に、4Dポイントトラック表現から任意のカメラトラジェクトリでビデオをレンダリングする4Dビュー合成モジュール(4D-Vi)を提案する。
論文 参考訳(メタデータ) (2025-12-04T17:59:10Z) - SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis [47.61773799705708]
同期多視点HOIビデオと4Dモーションを共同生成する最初のモデルであるSyncMV4Dを紹介する。
本手法は,視覚リアリズム,運動可視性,多視点整合性において,最先端の代替手段よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-11-24T17:14:19Z) - SEE4D: Pose-Free 4D Generation via Auto-Regressive Video Inpainting [83.5106058182799]
SEE4Dは, カジュアルビデオから4次元世界モデリングを行うための, ポーズのないトラジェクトリ・ツー・カメラ・フレームワークである。
モデル内のビュー条件ビデオは、現実的に合成された画像を認知する前に、ロバストな幾何学を学ぶために訓練される。
クロスビュービデオ生成とスパース再構成のベンチマークでSee4Dを検証した。
論文 参考訳(メタデータ) (2025-10-30T17:59:39Z) - Restage4D: Reanimating Deformable 3D Reconstruction from a Single Video [56.781766315691854]
ビデオ条件付き4D再生のための幾何学保存パイプラインである textbfRestage4D を紹介する。
DAVIS と PointOdyssey 上のRestage4D の有効性を検証し,幾何整合性,運動品質,3次元追跡性能の向上を実証した。
論文 参考訳(メタデータ) (2025-08-08T21:31:51Z) - Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。
既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:59:04Z) - PaintScene4D: Consistent 4D Scene Generation from Text Prompts [29.075849524496707]
PaintScene4Dは、新しいテキストから4Dのシーン生成フレームワークである。
さまざまな現実世界のデータセットでトレーニングされたビデオ生成モデルを活用する。
任意の軌道から見ることができるリアルな4Dシーンを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:59:57Z) - 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。
提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。
次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文 参考訳(メタデータ) (2024-06-11T17:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。