論文の概要: STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians
- arxiv url: http://arxiv.org/abs/2403.14939v1
- Date: Fri, 22 Mar 2024 04:16:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 18:37:30.478295
- Title: STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians
- Title(参考訳): STAG4D:時空間アンコールによる4Dガウス世代
- Authors: Yifei Zeng, Yanqin Jiang, Siyu Zhu, Yuanxun Lu, Youtian Lin, Hao Zhu, Weiming Hu, Xun Cao, Yao Yao,
- Abstract要約: STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。
提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 36.83603109001298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in pre-trained diffusion models and 3D generation have spurred interest in 4D content creation. However, achieving high-fidelity 4D generation with spatial-temporal consistency remains a challenge. In this work, we propose STAG4D, a novel framework that combines pre-trained diffusion models with dynamic 3D Gaussian splatting for high-fidelity 4D generation. Drawing inspiration from 3D generation techniques, we utilize a multi-view diffusion model to initialize multi-view images anchoring on the input video frames, where the video can be either real-world captured or generated by a video diffusion model. To ensure the temporal consistency of the multi-view sequence initialization, we introduce a simple yet effective fusion strategy to leverage the first frame as a temporal anchor in the self-attention computation. With the almost consistent multi-view sequences, we then apply the score distillation sampling to optimize the 4D Gaussian point cloud. The 4D Gaussian spatting is specially crafted for the generation task, where an adaptive densification strategy is proposed to mitigate the unstable Gaussian gradient for robust optimization. Notably, the proposed pipeline does not require any pre-training or fine-tuning of diffusion networks, offering a more accessible and practical solution for the 4D generation task. Extensive experiments demonstrate that our method outperforms prior 4D generation works in rendering quality, spatial-temporal consistency, and generation robustness, setting a new state-of-the-art for 4D generation from diverse inputs, including text, image, and video.
- Abstract(参考訳): 事前学習した拡散モデルと3D生成の最近の進歩は、4Dコンテンツ生成への関心を喚起している。
しかし,高忠実度4D生成を時空間整合性で実現することは依然として課題である。
本研究では,事前学習した拡散モデルと動的3次元ガウススプラッティングを組み合わせた,高忠実度4D生成のための新しいフレームワークSTAG4Dを提案する。
3D生成技術からインスピレーションを得たマルチビュー拡散モデルを用いて、入力されたビデオフレームに固定されたマルチビュー画像を初期化する。
マルチビューシーケンスの初期化の時間的一貫性を確保するため,自己アテンション計算において,第1フレームを時間的アンカーとして活用する,シンプルかつ効果的な融合戦略を導入する。
ほぼ一貫したマルチビューシーケンスを用いて、4次元ガウス点雲を最適化するためにスコア蒸留サンプリングを適用する。
4次元ガウス空間は、不安定なガウス勾配を緩和し、ロバストな最適化を行うための適応的なデンシフィケーション戦略が提案されている。
特に、提案したパイプラインは、拡散ネットワークの事前学習や微調整を必要とせず、4D生成タスクに対してよりアクセスしやすく実用的なソリューションを提供する。
広汎な実験により,本手法は,テキスト,画像,ビデオなど多種多様な入力から4D生成のレンダリング品質,空間的時間的整合性,ロバスト性において,先行する4D生成よりも優れることが示された。
関連論文リスト
- Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Orthogonal Diffusion Models [6.738732514502613]
動的3Dコンテンツ作成のための新しいフレームワークであるDiffusion$2を提示する。
私たちのフレームワークは数分で4Dコンテンツを生成できます。
論文 参考訳(メタデータ) (2024-04-02T17:58:03Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [59.32318797882129]
本研究では,4次元ガウス分割表現に基づく効率的な4次元生成フレームワークであるDreamGaussian4Dを紹介する。
我々の重要な洞察は、ガウススプラッティングにおける空間変換の明示的なモデリングが、4次元生成設定により適しているということである。
DreamGaussian4Dは最適化時間を数時間から数分に短縮し、生成された3Dモーションの柔軟な制御を可能にし、3Dエンジンで効率的にレンダリングできるアニメーションメッシュを生成する。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - Animate124: Animating One Image to 4D Dynamic Scene [108.17635645216214]
Animate124は、テキストによる動作記述を通じて、単一のWildイメージを3Dビデオにアニメーションする最初の作品である。
提案手法は,既存のベースラインよりも大幅に進歩したことを示す。
論文 参考訳(メタデータ) (2023-11-24T16:47:05Z) - Consistent4D: Consistent 360{\deg} Dynamic Object Generation from
Monocular Video [15.621374353364468]
Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。
我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
論文 参考訳(メタデータ) (2023-11-06T03:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。