論文の概要: Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis
- arxiv url: http://arxiv.org/abs/2507.23785v1
- Date: Thu, 31 Jul 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.307847
- Title: Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis
- Title(参考訳): 高忠実度映像から4次元合成のためのガウス変動場拡散
- Authors: Bowen Zhang, Sicheng Xu, Chuxin Wang, Jiaolong Yang, Feng Zhao, Dong Chen, Baining Guo,
- Abstract要約: 直接4次元拡散モデリングは、コストの高いデータ構築と3次元形状、外観、動きを共同で表現する高次元の性質のため、極めて困難である。
我々は,標準ガウスを直接符号化する4DMesh-to-GS Variation Field VAEと,その時間変化を3Dアニメーションデータから紹介する。
入力ビデオと標準GSで条件付き時間認識拡散変換器を訓練する。
- 参考スコア(独自算出の注目度): 31.632778145139074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a novel framework for video-to-4D generation that creates high-quality dynamic 3D content from single video inputs. Direct 4D diffusion modeling is extremely challenging due to costly data construction and the high-dimensional nature of jointly representing 3D shape, appearance, and motion. We address these challenges by introducing a Direct 4DMesh-to-GS Variation Field VAE that directly encodes canonical Gaussian Splats (GS) and their temporal variations from 3D animation data without per-instance fitting, and compresses high-dimensional animations into a compact latent space. Building upon this efficient representation, we train a Gaussian Variation Field diffusion model with temporal-aware Diffusion Transformer conditioned on input videos and canonical GS. Trained on carefully-curated animatable 3D objects from the Objaverse dataset, our model demonstrates superior generation quality compared to existing methods. It also exhibits remarkable generalization to in-the-wild video inputs despite being trained exclusively on synthetic data, paving the way for generating high-quality animated 3D content. Project page: https://gvfdiffusion.github.io/.
- Abstract(参考訳): 本稿では,単一のビデオ入力から高品質な動的3Dコンテンツを生成する,ビデオから4D生成のための新しいフレームワークを提案する。
直接4次元拡散モデリングは、コストの高いデータ構築と3次元形状、外観、動きを共同で表現する高次元の性質のため、極めて困難である。
本研究では,標準ガウスプレート(GS)を直接エンコードする直接4DMesh-to-GS変分場VAEを導入し,その時間変動を3次元アニメーションデータからインスタンス・フィッティングなしで表現し,高次元アニメーションをコンパクトな潜在空間に圧縮することで,これらの課題に対処する。
この効率的な表現に基づいて、入力ビデオと標準GSに条件付き時間認識拡散変換器を用いたガウス変分場拡散モデルを訓練する。
Objaverseデータセットから慎重に計算したアニマタブルな3Dオブジェクトを学習し,既存の手法に比べて優れた生成品質を示す。
また、合成データのみに訓練されているにもかかわらず、高品質のアニメーション3Dコンテンツを生成する方法として、Wildのビデオインプットに顕著な一般化を示す。
プロジェクトページ: https://gvfdiffusion.github.io/.com
関連論文リスト
- AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation [57.199352741915625]
本稿では,任意の3Dメッシュの効率的なテキスト駆動アニメーションを可能にする最初のフィードフォワードフレームワークであるAnimateAnyMeshを紹介する。
我々のアプローチは、動的メッシュシーケンスを効果的に圧縮し再構成する新しいDyMeshVAEアーキテクチャを活用する。
また、DyMeshデータセットにもコントリビュートし、テキストアノテーション付き4M以上の動的メッシュシーケンスを格納しています。
論文 参考訳(メタデータ) (2025-06-11T17:55:16Z) - Drive Any Mesh: 4D Latent Diffusion for Mesh Deformation from Video [19.830248504692563]
DriveAnyMeshは、モノクロビデオでガイドされたメッシュを駆動する方法である。
潜在集合の列を識別する4次元拡散モデルを提案する。
ラッチセットは変分オートエンコーダを利用し、3D形状とモーション情報を同時にキャプチャする。
論文 参考訳(メタデータ) (2025-06-09T07:08:58Z) - SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency [37.96042037188354]
本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。
論文 参考訳(メタデータ) (2024-07-24T17:59:43Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。
我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。
ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。