論文の概要: 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency
- arxiv url: http://arxiv.org/abs/2312.17225v1
- Date: Thu, 28 Dec 2023 18:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 14:59:31.683573
- Title: 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency
- Title(参考訳): 4DGen:時空間一貫性を備えた地上4Dコンテンツ生成
- Authors: Yuyang Yin, Dejia Xu, Zhangyang Wang, Yao Zhao, Yunchao Wei
- Abstract要約: この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
- 参考スコア(独自算出の注目度): 126.75952654863667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aided by text-to-image and text-to-video diffusion models, existing 4D
content creation pipelines utilize score distillation sampling to optimize the
entire dynamic 3D scene. However, as these pipelines generate 4D content from
text or image inputs, they incur significant time and effort in prompt
engineering through trial and error. This work introduces 4DGen, a novel,
holistic framework for grounded 4D content creation that decomposes the 4D
generation task into multiple stages. We identify static 3D assets and
monocular video sequences as key components in constructing the 4D content. Our
pipeline facilitates conditional 4D generation, enabling users to specify
geometry (3D assets) and motion (monocular videos), thus offering superior
control over content creation. Furthermore, we construct our 4D representation
using dynamic 3D Gaussians, which permits efficient, high-resolution
supervision through rendering during training, thereby facilitating
high-quality 4D generation. Additionally, we employ spatial-temporal pseudo
labels on anchor frames, along with seamless consistency priors implemented
through 3D-aware score distillation sampling and smoothness regularizations.
Compared to existing baselines, our approach yields competitive results in
faithfully reconstructing input signals and realistically inferring renderings
from novel viewpoints and timesteps. Most importantly, our method supports
grounded generation, offering users enhanced control, a feature difficult to
achieve with previous methods. Project page:
https://vita-group.github.io/4DGen/
- Abstract(参考訳): テキストから画像への拡散モデルとテキストからビデオへの拡散モデルにより、既存の4dコンテンツ作成パイプラインはスコア蒸留サンプリングを利用して動的3dシーン全体を最適化する。
しかし、これらのパイプラインはテキストや画像入力から4dコンテンツを生成するため、試行錯誤によるエンジニアリングの迅速化にかなりの時間と労力がかかる。
この研究は、4D生成タスクを複数のステージに分解する、4Dコンテンツ作成のための新しい総合的なフレームワークである4DGenを紹介する。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザがジオメトリ(3Dアセット)とモーション(眼球ビデオ)を指定できるようにする。
さらに,動的3次元ガウシアンを用いて4次元表現を構築し,トレーニング中のレンダリングによる効率良く高解像度な監督が可能となり,高品質な4次元生成が容易になる。
さらに, アンカーフレームに空間的擬似ラベルを付加し, 3D-Aware スコア蒸留サンプリングと滑らか度正規化により, シームレスな一貫性を実現する。
既存のベースラインと比較すると,入力信号を忠実に再構成し,新たな視点やタイムステップからリアルに描画を推測する競争結果が得られる。
また,提案手法は,従来手法では実現が困難であった制御の強化を実現するため,基底生成をサポートする。
プロジェクトページ: https://vita-group.github.io/4DGen/
関連論文リスト
- Fast Dynamic 3D Object Generation from a Single-view Video [45.996494048942075]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。
合成ビデオと実ビデオの実験によると、Efficient4Dのスピードは10倍に向上している。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [59.32318797882129]
本研究では,4次元ガウス分割表現に基づく効率的な4次元生成フレームワークであるDreamGaussian4Dを紹介する。
我々の重要な洞察は、ガウススプラッティングにおける空間変換の明示的なモデリングが、4次元生成設定により適しているということである。
DreamGaussian4Dは最適化時間を数時間から数分に短縮し、生成された3Dモーションの柔軟な制御を可能にし、3Dエンジンで効率的にレンダリングできるアニメーションメッシュを生成する。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [95.05258491077785]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z) - Consistent4D: Consistent 360{\deg} Dynamic Object Generation from
Monocular Video [15.621374353364468]
Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。
我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
論文 参考訳(メタデータ) (2023-11-06T03:26:43Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。