論文の概要: A Unified Approach for Text- and Image-guided 4D Scene Generation
- arxiv url: http://arxiv.org/abs/2311.16854v2
- Date: Wed, 29 Nov 2023 15:56:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 12:20:13.166829
- Title: A Unified Approach for Text- and Image-guided 4D Scene Generation
- Title(参考訳): テキストと画像を用いた4次元シーン生成のための統一的アプローチ
- Authors: Yufeng Zheng, Xueting Li, Koki Nagano, Sifei Liu, Karsten Kreis, Otmar
Hilliges, Shalini De Mello
- Abstract要約: 本研究では,テキストから4Dへの新たな2段階合成手法であるDream-in-4Dを提案する。
提案手法は,画像の画質,3次元整合性,テキスト・ツー・4次元生成におけるテキストの忠実度を著しく向上することを示す。
本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一されたアプローチを提供する。
- 参考スコア(独自算出の注目度): 61.60025506794648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale diffusion generative models are greatly simplifying image, video
and 3D asset creation from user-provided text prompts and images. However, the
challenging problem of text-to-4D dynamic 3D scene generation with diffusion
guidance remains largely unexplored. We propose Dream-in-4D, which features a
novel two-stage approach for text-to-4D synthesis, leveraging (1) 3D and 2D
diffusion guidance to effectively learn a high-quality static 3D asset in the
first stage; (2) a deformable neural radiance field that explicitly
disentangles the learned static asset from its deformation, preserving quality
during motion learning; and (3) a multi-resolution feature grid for the
deformation field with a displacement total variation loss to effectively learn
motion with video diffusion guidance in the second stage. Through a user
preference study, we demonstrate that our approach significantly advances image
and motion quality, 3D consistency and text fidelity for text-to-4D generation
compared to baseline approaches. Thanks to its motion-disentangled
representation, Dream-in-4D can also be easily adapted for controllable
generation where appearance is defined by one or multiple images, without the
need to modify the motion learning stage. Thus, our method offers, for the
first time, a unified approach for text-to-4D, image-to-4D and personalized 4D
generation tasks.
- Abstract(参考訳): 大規模拡散生成モデルは,ユーザが提供するテキストプロンプトと画像から画像,映像,および3dアセットの作成を大幅に単純化している。
しかし,拡散指導を伴うテキストから4次元動的3次元シーン生成の課題はほとんど解明されていない。
We propose Dream-in-4D, which features a novel two-stage approach for text-to-4D synthesis, leveraging (1) 3D and 2D diffusion guidance to effectively learn a high-quality static 3D asset in the first stage; (2) a deformable neural radiance field that explicitly disentangles the learned static asset from its deformation, preserving quality during motion learning; and (3) a multi-resolution feature grid for the deformation field with a displacement total variation loss to effectively learn motion with video diffusion guidance in the second stage.
ユーザの嗜好調査を通じて,本手法はベースラインアプローチと比較して,画像品質,3次元一貫性,テキストの忠実度を著しく向上することを示した。
動きの不連続表現のおかげで、dream-in-4dは、動き学習段階を変更することなく、1つまたは複数の画像で外観を定義する制御可能な生成にも容易に適応できる。
そこで本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一的なアプローチを提供する。
関連論文リスト
- 4Dynamic: Text-to-4D Generation with Hybrid Priors [56.918589589853184]
本稿では,ビデオによる直接監督によって動的振幅と信頼性を保証し,テキストから4Dへ変換する新しい手法を提案する。
本手法は,テキスト・ツー・4D生成だけでなく,モノクロ映像からの4D生成も可能にしている。
論文 参考訳(メタデータ) (2024-07-17T16:02:55Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z) - Animate124: Animating One Image to 4D Dynamic Scene [108.17635645216214]
Animate124は、テキストによる動作記述を通じて、単一のWildイメージを3Dビデオにアニメーションする最初の作品である。
提案手法は,既存のベースラインよりも大幅に進歩したことを示す。
論文 参考訳(メタデータ) (2023-11-24T16:47:05Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。