論文の概要: Splat4D: Diffusion-Enhanced 4D Gaussian Splatting for Temporally and Spatially Consistent Content Creation
- arxiv url: http://arxiv.org/abs/2508.07557v1
- Date: Mon, 11 Aug 2025 02:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.912511
- Title: Splat4D: Diffusion-Enhanced 4D Gaussian Splatting for Temporally and Spatially Consistent Content Creation
- Title(参考訳): Splat4D: 時間的・空間的に一貫したコンテンツ作成のための拡散強化型4次元ガウス平滑化
- Authors: Minghao Yin, Yukang Cao, Songyou Peng, Kai Han,
- Abstract要約: Splat4Dはモノクロビデオから高忠実度4Dコンテンツを生成するための新しいフレームワークである。
Splat4Dは、忠実な時空間コヒーレンスを維持しながら優れた性能を達成する。
Splat4Dは、テキスト/画像条件付き4D生成、4Dヒューマン生成、テキスト誘導コンテンツ編集など、様々な応用で検証されている。
- 参考スコア(独自算出の注目度): 29.988214687992908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating high-quality 4D content from monocular videos for applications such as digital humans and AR/VR poses challenges in ensuring temporal and spatial consistency, preserving intricate details, and incorporating user guidance effectively. To overcome these challenges, we introduce Splat4D, a novel framework enabling high-fidelity 4D content generation from a monocular video. Splat4D achieves superior performance while maintaining faithful spatial-temporal coherence by leveraging multi-view rendering, inconsistency identification, a video diffusion model, and an asymmetric U-Net for refinement. Through extensive evaluations on public benchmarks, Splat4D consistently demonstrates state-of-the-art performance across various metrics, underscoring the efficacy of our approach. Additionally, the versatility of Splat4D is validated in various applications such as text/image conditioned 4D generation, 4D human generation, and text-guided content editing, producing coherent outcomes following user instructions.
- Abstract(参考訳): デジタル人間やAR/VRなどのアプリケーション向けのモノクロビデオから高品質な4Dコンテンツを生成することは、時間的および空間的整合性を確保し、複雑な詳細を保存し、ユーザガイダンスを効果的に取り入れるという課題を提起する。
これらの課題を克服するために,モノクロビデオから高忠実度4Dコンテンツを生成する新しいフレームワークであるSplat4Dを紹介した。
Splat4Dは、マルチビューレンダリング、不整合識別、ビデオ拡散モデル、非対称U-Netを活用して、忠実な時空間コヒーレンスを維持しながら優れた性能を実現する。
Splat4Dは、公開ベンチマークの広範な評価を通じて、さまざまなメトリクスにわたる最先端のパフォーマンスを一貫して実証し、我々のアプローチの有効性を裏付ける。
さらに、Splat4Dの汎用性は、テキスト/イメージ条件付き4D生成、4Dヒューマン生成、テキストガイド付きコンテンツ編集など様々なアプリケーションで検証され、ユーザ指示に従ってコヒーレントな結果が生成される。
関連論文リスト
- STP4D: Spatio-Temporal-Prompt Consistent Modeling for Text-to-4D Gaussian Splatting [34.07501669897291]
テキストから4D生成は、様々なシナリオに広く応用されている。
既存のメソッドは統合されたフレームワークに適切なプロンプト・モデリングを組み込むことができないことが多い。
本稿では,包括的テキストから4D生成へ統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-04-25T12:53:15Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。