論文の概要: Dream4D: Lifting Camera-Controlled I2V towards Spatiotemporally Consistent 4D Generation
- arxiv url: http://arxiv.org/abs/2508.07769v1
- Date: Mon, 11 Aug 2025 08:55:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.019095
- Title: Dream4D: Lifting Camera-Controlled I2V towards Spatiotemporally Consistent 4D Generation
- Title(参考訳): Dream4D: カメラを内蔵したI2Vを時空間一貫した4D生成に向ける
- Authors: Xiaoyan Liu, Kangrui Li, Jiaxin Liu,
- Abstract要約: 現在のアプローチは、複雑なシーンダイナミクスを処理しながら、ビューの一貫性を維持するのに苦労することが多い。
このフレームワークは、リッチな時間的先行ビデオ拡散モデルと、再構成モデルの幾何学的認識の両方を活用する最初のものである。
これは4D生成を著しく促進し、既存の方法よりも高い品質(mPSNR、mSSIMなど)を示す。
- 参考スコア(独自算出の注目度): 3.1852855132066673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The synthesis of spatiotemporally coherent 4D content presents fundamental challenges in computer vision, requiring simultaneous modeling of high-fidelity spatial representations and physically plausible temporal dynamics. Current approaches often struggle to maintain view consistency while handling complex scene dynamics, particularly in large-scale environments with multiple interacting elements. This work introduces Dream4D, a novel framework that bridges this gap through a synergy of controllable video generation and neural 4D reconstruction. Our approach seamlessly combines a two-stage architecture: it first predicts optimal camera trajectories from a single image using few-shot learning, then generates geometrically consistent multi-view sequences via a specialized pose-conditioned diffusion process, which are finally converted into a persistent 4D representation. This framework is the first to leverage both rich temporal priors from video diffusion models and geometric awareness of the reconstruction models, which significantly facilitates 4D generation and shows higher quality (e.g., mPSNR, mSSIM) over existing methods.
- Abstract(参考訳): 時空間コヒーレントな4Dコンテンツの合成は、高忠実度空間表現と物理的に妥当な時間ダイナミクスの同時モデリングを必要とする、コンピュータビジョンの基本的な課題を示す。
現在のアプローチは、複雑なシーンのダイナミクス、特に複数の相互作用する要素を持つ大規模環境では、ビューの一貫性を維持するのに苦労することが多い。
この研究は、制御可能なビデオ生成とニューラル4D再構成のシナジーを通じて、このギャップを橋渡しする新しいフレームワークであるDream4Dを紹介する。
我々のアプローチは2段階のアーキテクチャをシームレスに結合し、まず、数ショット学習を用いて1つの画像から最適なカメラ軌跡を予測し、その後、特殊ポーズ条件拡散プロセスを介して幾何的に一貫した多視点シーケンスを生成し、最終的に永続的な4D表現に変換する。
このフレームワークは,ビデオ拡散モデルからの豊富な時間的先行と4次元生成を著しく促進し,既存の手法よりも高い品質(例えばmPSNR,mSSIM)を示す再構成モデルの幾何学的認識の両方を活用する最初のものである。
関連論文リスト
- MVG4D: Image Matrix-Based Multi-View and Motion Generation for 4D Content Creation from a Single Image [8.22464804794448]
静止画像から動的4Dコンテンツを生成する新しいフレームワークであるMVG4Dを提案する。
MVG4Dのコアとなるのは、時間的コヒーレントで空間的に多様なマルチビュー画像を合成するイメージマトリックスモジュールである。
本手法は, 時間的一貫性, 幾何学的忠実度, 視覚的リアリズムを効果的に向上させ, 動きの不連続性や背景劣化における重要な課題に対処する。
論文 参考訳(メタデータ) (2025-07-24T12:48:14Z) - 4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation [66.20991603309054]
本稿では,映像フレームの4次元時間格子と3次元ガウス粒子の時間ステップ毎にフィードフォワードアーキテクチャを用いて計算可能な最初のフレームワークを提案する。
まず,2ストリーム設計において,空間的および時間的注意を連続的に,あるいは並列に行う4次元ビデオ拡散アーキテクチャを解析する。
第2部では、ガウスヘッド、カメラトークン置換アルゴリズム、追加の動的レイヤとトレーニングを導入し、既存の3D再構成アルゴリズムを拡張した。
論文 参考訳(メタデータ) (2025-06-18T23:44:59Z) - Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion [52.0192865857058]
そこで,本研究では,市販ビデオ拡散モデルを利用して,単一入力ビデオから多視点ビデオを生成する4Dビデオ生成手法を提案する。
本手法はトレーニング不要で,市販のビデオ拡散モデルを完全に活用し,マルチビュービデオ生成のための実用的で効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-03-28T17:14:48Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。