論文の概要: 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency
- arxiv url: http://arxiv.org/abs/2312.17225v2
- Date: Sun, 17 Mar 2024 09:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 02:32:43.013057
- Title: 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency
- Title(参考訳): 4DGen:時空間一貫性を備えた地上4Dコンテンツ生成
- Authors: Yuyang Yin, Dejia Xu, Zhangyang Wang, Yao Zhao, Yunchao Wei,
- Abstract要約: この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
- 参考スコア(独自算出の注目度): 118.15258850780417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aided by text-to-image and text-to-video diffusion models, existing 4D content creation pipelines utilize score distillation sampling to optimize the entire dynamic 3D scene. However, as these pipelines generate 4D content from text or image inputs, they incur significant time and effort in prompt engineering through trial and error. This work introduces 4DGen, a novel, holistic framework for grounded 4D content creation that decomposes the 4D generation task into multiple stages. We identify static 3D assets and monocular video sequences as key components in constructing the 4D content. Our pipeline facilitates conditional 4D generation, enabling users to specify geometry (3D assets) and motion (monocular videos), thus offering superior control over content creation. Furthermore, we construct our 4D representation using dynamic 3D Gaussians, which permits efficient, high-resolution supervision through rendering during training, thereby facilitating high-quality 4D generation. Additionally, we employ spatial-temporal pseudo labels on anchor frames, along with seamless consistency priors implemented through 3D-aware score distillation sampling and smoothness regularizations. Compared to existing baselines, our approach yields competitive results in faithfully reconstructing input signals and realistically inferring renderings from novel viewpoints and timesteps. Most importantly, our method supports grounded generation, offering users enhanced control, a feature difficult to achieve with previous methods. Project page: https://vita-group.github.io/4DGen/
- Abstract(参考訳): テキスト・ツー・画像拡散モデルとテキスト・ツー・ビデオ拡散モデルにより、既存の4Dコンテンツ生成パイプラインは、スコア蒸留サンプリングを使用して動的3Dシーン全体を最適化する。
しかし、これらのパイプラインはテキストや画像入力から4Dコンテンツを生成するため、試行錯誤によるエンジニアリングの促進にはかなりの時間と労力を要する。
この研究は、4D生成タスクを複数のステージに分解する、4Dコンテンツ作成のための新しい総合的なフレームワークである4DGenを紹介している。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザがジオメトリ(3Dアセット)とモーション(眼球ビデオ)を指定できるようにし、コンテンツ生成に対する優れた制御を提供する。
さらに,ダイナミックな3Dガウス表現を用いて4D表現を構築し,トレーニング中のレンダリングによる高精細な監督を可能にし,高品質な4D生成を容易にする。
さらに, アンカーフレームに空間的擬似ラベルを付加し, 3D-Aware スコア蒸留サンプリングと滑らか度正規化により, シームレスな一貫性を実現する。
既存のベースラインと比較すると,入力信号を忠実に再構成し,新たな視点やタイムステップからリアルに描画を推測する競争結果が得られる。
また,提案手法は,従来手法では実現が困難であった制御の強化を実現するため,基底生成をサポートする。
プロジェクトページ: https://vita-group.github.io/4DGen/
関連論文リスト
- EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - Beyond Skeletons: Integrative Latent Mapping for Coherent 4D Sequence Generation [48.671462912294594]
与えられた条件下での3次元形状のアニメーションでコヒーレントな4次元配列を生成する新しいフレームワークを提案する。
まず、各詳細な3次元形状フレームの形状と色情報を符号化するために、積分潜在統一表現を用いる。
提案手法により,低次元空間における拡散モデルを用いて4次元配列の生成を制御できる。
論文 参考訳(メタデータ) (2024-03-20T01:59:43Z) - Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。
合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。