論文の概要: Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models
- arxiv url: http://arxiv.org/abs/2511.00503v1
- Date: Sat, 01 Nov 2025 11:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.80839
- Title: Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models
- Title(参考訳): Diff4Splat:潜在動的再構成モデルによる制御可能な4次元シーン生成
- Authors: Panwang Pan, Chenguo Lin, Jingjing Zhao, Chenxin Li, Yuchen Lin, Haopeng Li, Honglei Yan, Kairun Wen, Yunlong Lin, Yixuan Yuan, Yadong Mu,
- Abstract要約: Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
- 参考スコア(独自算出の注目度): 79.06910348413861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Diff4Splat, a feed-forward method that synthesizes controllable and explicit 4D scenes from a single image. Our approach unifies the generative priors of video diffusion models with geometry and motion constraints learned from large-scale 4D datasets. Given a single input image, a camera trajectory, and an optional text prompt, Diff4Splat directly predicts a deformable 3D Gaussian field that encodes appearance, geometry, and motion, all in a single forward pass, without test-time optimization or post-hoc refinement. At the core of our framework lies a video latent transformer, which augments video diffusion models to jointly capture spatio-temporal dependencies and predict time-varying 3D Gaussian primitives. Training is guided by objectives on appearance fidelity, geometric accuracy, and motion consistency, enabling Diff4Splat to synthesize high-quality 4D scenes in 30 seconds. We demonstrate the effectiveness of Diff4Splatacross video generation, novel view synthesis, and geometry extraction, where it matches or surpasses optimization-based methods for dynamic scene synthesis while being significantly more efficient.
- Abstract(参考訳): Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
提案手法は,大規模4次元データセットから学習した幾何や動きの制約を伴うビデオ拡散モデルの生成先行を統一する。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは、外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
私たちのフレームワークのコアにはビデオラテントトランスフォーマーがあり、これはビデオ拡散モデルを拡張して、時空間依存性を共同にキャプチャし、時間変化のガウスプリミティブを予測する。
トレーニングは、外観の忠実さ、幾何学的精度、動きの一貫性の目標によってガイドされ、Diff4Splatは高品質な4Dシーンを30秒で合成することができる。
Diff4Splatacrossビデオ生成、新しいビュー合成、幾何抽出の有効性を示す。
関連論文リスト
- ShapeGen4D: Towards High Quality 4D Shape Generation from Videos [85.45517487721257]
ビデオからエンドツーエンドに1つの動的3次元表現を合成する,ネイティブなビデオから4次元の形状生成フレームワークを提案する。
本手法は,フレームごとの最適化を行なわずに,非剛性運動,体積変化,および位相遷移を正確にキャプチャする。
論文 参考訳(メタデータ) (2025-10-07T17:58:11Z) - 4DNeX: Feed-Forward 4D Generative Modeling Made Easy [51.79072580042173]
1つの画像から4D(動的3D)シーン表現を生成するための最初のフィードフォワードフレームワークである4DNeXを提案する。
計算集約的な最適化やマルチフレームビデオ入力を必要とする既存の方法とは対照的に、4DNeXは効率的でエンドツーエンドの画像から4D生成を可能にする。
論文 参考訳(メタデータ) (2025-08-18T17:59:55Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。
提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:16:33Z) - Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。
合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。