Fugu-MT 論文翻訳(概要): STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians

論文の概要: STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians

arxiv url: http://arxiv.org/abs/2403.14939v1
Date: Fri, 22 Mar 2024 04:16:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 18:37:30.478295
Title: STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians
Title（参考訳）: STAG4D:時空間アンコールによる4Dガウス世代
Authors: Yifei Zeng, Yanqin Jiang, Siyu Zhu, Yuanxun Lu, Youtian Lin, Hao Zhu, Weiming Hu, Xun Cao, Yao Yao,
Abstract要約: STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
参考スコア（独自算出の注目度）: 36.83603109001298
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent progress in pre-trained diffusion models and 3D generation have spurred interest in 4D content creation. However, achieving high-fidelity 4D generation with spatial-temporal consistency remains a challenge. In this work, we propose STAG4D, a novel framework that combines pre-trained diffusion models with dynamic 3D Gaussian splatting for high-fidelity 4D generation. Drawing inspiration from 3D generation techniques, we utilize a multi-view diffusion model to initialize multi-view images anchoring on the input video frames, where the video can be either real-world captured or generated by a video diffusion model. To ensure the temporal consistency of the multi-view sequence initialization, we introduce a simple yet effective fusion strategy to leverage the first frame as a temporal anchor in the self-attention computation. With the almost consistent multi-view sequences, we then apply the score distillation sampling to optimize the 4D Gaussian point cloud. The 4D Gaussian spatting is specially crafted for the generation task, where an adaptive densification strategy is proposed to mitigate the unstable Gaussian gradient for robust optimization. Notably, the proposed pipeline does not require any pre-training or fine-tuning of diffusion networks, offering a more accessible and practical solution for the 4D generation task. Extensive experiments demonstrate that our method outperforms prior 4D generation works in rendering quality, spatial-temporal consistency, and generation robustness, setting a new state-of-the-art for 4D generation from diverse inputs, including text, image, and video.
Abstract（参考訳）: 事前学習した拡散モデルと3D生成の最近の進歩は、4Dコンテンツ生成への関心を喚起している。しかし,高忠実度4D生成を時空間整合性で実現することは依然として課題である。本研究では,事前学習した拡散モデルと動的3次元ガウススプラッティングを組み合わせた,高忠実度4D生成のための新しいフレームワークSTAG4Dを提案する。 3D生成技術からインスピレーションを得たマルチビュー拡散モデルを用いて、入力されたビデオフレームに固定されたマルチビュー画像を初期化する。マルチビューシーケンスの初期化の時間的一貫性を確保するため,自己アテンション計算において,第1フレームを時間的アンカーとして活用する,シンプルかつ効果的な融合戦略を導入する。ほぼ一貫したマルチビューシーケンスを用いて、4次元ガウス点雲を最適化するためにスコア蒸留サンプリングを適用する。 4次元ガウス空間は、不安定なガウス勾配を緩和し、ロバストな最適化を行うための適応的なデンシフィケーション戦略が提案されている。特に、提案したパイプラインは、拡散ネットワークの事前学習や微調整を必要とせず、4D生成タスクに対してよりアクセスしやすく実用的なソリューションを提供する。広汎な実験により,本手法は,テキスト,画像,ビデオなど多種多様な入力から4D生成のレンダリング品質,空間的時間的整合性,ロバスト性において,先行する4D生成よりも優れることが示された。

関連論文リスト

Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文参考訳（メタデータ） (2025-11-01T11:16:25Z)
Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文参考訳（メタデータ） (2025-03-26T17:59:44Z)
4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文参考訳（メタデータ） (2024-05-31T08:18:39Z)
EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文参考訳（メタデータ） (2024-05-28T12:47:22Z)
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文参考訳（メタデータ） (2024-05-26T17:47:34Z)
Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。 3次元モデルからの幾何的一貫性と時間的滑らかさに関する知識を精査し、密集した多視点画像を直接サンプリングする。非常にシームレスで一貫した4Dアセットを生成する上で,提案手法の有効性を示す実験を行った。
論文参考訳（メタデータ） (2024-04-02T17:58:03Z)
4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文参考訳（メタデータ） (2023-12-28T18:53:39Z)
DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文参考訳（メタデータ） (2023-12-28T17:16:44Z)
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。 4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文参考訳（メタデータ） (2023-12-21T11:41:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。