論文の概要: Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image
- arxiv url: http://arxiv.org/abs/2512.05044v1
- Date: Thu, 04 Dec 2025 17:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.309316
- Title: Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image
- Title(参考訳): 単一画像からの4次元合成のための関節3次元形状再構成と運動生成
- Authors: Yanran Zhang, Ziyi Wang, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu,
- Abstract要約: そこでTrajScene-60Kについて紹介する。
拡散型4次元シーン軌道生成装置(4D-STraG)を提案する。
次に、4Dポイントトラック表現から任意のカメラトラジェクトリでビデオをレンダリングする4Dビュー合成モジュール(4D-Vi)を提案する。
- 参考スコア(独自算出の注目度): 88.71287865590273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating interactive and dynamic 4D scenes from a single static image remains a core challenge. Most existing generate-then-reconstruct and reconstruct-then-generate methods decouple geometry from motion, causing spatiotemporal inconsistencies and poor generalization. To address these, we extend the reconstruct-then-generate framework to jointly perform Motion generation and geometric Reconstruction for 4D Synthesis (MoRe4D). We first introduce TrajScene-60K, a large-scale dataset of 60,000 video samples with dense point trajectories, addressing the scarcity of high-quality 4D scene data. Based on this, we propose a diffusion-based 4D Scene Trajectory Generator (4D-STraG) to jointly generate geometrically consistent and motion-plausible 4D point trajectories. To leverage single-view priors, we design a depth-guided motion normalization strategy and a motion-aware module for effective geometry and dynamics integration. We then propose a 4D View Synthesis Module (4D-ViSM) to render videos with arbitrary camera trajectories from 4D point track representations. Experiments show that MoRe4D generates high-quality 4D scenes with multi-view consistency and rich dynamic details from a single image. Code: https://github.com/Zhangyr2022/MoRe4D.
- Abstract(参考訳): 単一の静的イメージからインタラクティブでダイナミックな4Dシーンを生成することは、依然として重要な課題である。
既存の生成列再構成および再構成列生成手法の多くは、幾何学を運動から切り離し、時空間的不整合と一般化の不整合を引き起こす。
そこで本研究では,4次元合成(MoRe4D)のための運動生成と幾何学的再構成を共同で行うために,再構成・列生成フレームワークを拡張した。
まずTrajScene-60Kという,高画質な4Dシーンデータの不足に対処する,6万本のビデオサンプルの大規模データセットを紹介した。
そこで本研究では, 拡散型4次元シーン軌道生成器(4D-STraG)を提案する。
単一ビューの先行性を活用するために, 深度誘導型運動正規化戦略と, 効率的な幾何および動的統合のための動き認識モジュールを設計する。
次に、4Dポイントトラック表現から任意のカメラトラジェクトリでビデオをレンダリングする4Dビュー合成モジュール(4D-ViSM)を提案する。
実験の結果,MoRe4Dは高画質な4Dシーンを生成できることがわかった。
コード:https://github.com/Zhangyr2022/MoRe4D。
関連論文リスト
- SyncTrack4D: Cross-Video Motion Alignment and Video Synchronization for Multi-Video 4D Gaussian Splatting [50.69165364520998]
実世界の非同期ビデオ集合を扱うために, マルチビデオ4Dガウススプラッティング (4DGS) 方式を提案する。
SyncTrack4Dは、4DGSの同時同期と4DGS再構成のためのキューとして動的シーンの高密度な4Dトラック表現を直接活用する。
我々はPanoptic Studio と SyncNeRF Blender に対するアプローチを評価し,0.26 フレーム以下の平均時間誤差でサブフレーム同期精度を示し,高忠実度 4D 再構成は26.3 PSNR スコアに達した。
論文 参考訳(メタデータ) (2025-12-03T23:05:01Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis [60.853577108780414]
既存の4D生成方法は、ユーザフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成することができる。
現実的な複雑なシーン遷移を可能にする新しいテキストから4D合成フレームワークであるTrans4Dを提案する。
実験では、Trans4Dは、4Dシーンを正確かつ高品質な遷移で生成する既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-10-09T17:56:03Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。