論文の概要: A Unified Approach for Text- and Image-guided 4D Scene Generation
- arxiv url: http://arxiv.org/abs/2311.16854v3
- Date: Tue, 7 May 2024 14:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 19:54:07.741857
- Title: A Unified Approach for Text- and Image-guided 4D Scene Generation
- Title(参考訳): テキストと画像を用いた4次元シーン生成のための統一的アプローチ
- Authors: Yufeng Zheng, Xueting Li, Koki Nagano, Sifei Liu, Karsten Kreis, Otmar Hilliges, Shalini De Mello,
- Abstract要約: 本研究では,テキストから4Dへの新たな2段階合成手法であるDream-in-4Dを提案する。
提案手法は,画像の画質,3次元整合性,テキスト・ツー・4次元生成におけるテキストの忠実度を著しく向上することを示す。
本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一されたアプローチを提供する。
- 参考スコア(独自算出の注目度): 58.658768832653834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale diffusion generative models are greatly simplifying image, video and 3D asset creation from user-provided text prompts and images. However, the challenging problem of text-to-4D dynamic 3D scene generation with diffusion guidance remains largely unexplored. We propose Dream-in-4D, which features a novel two-stage approach for text-to-4D synthesis, leveraging (1) 3D and 2D diffusion guidance to effectively learn a high-quality static 3D asset in the first stage; (2) a deformable neural radiance field that explicitly disentangles the learned static asset from its deformation, preserving quality during motion learning; and (3) a multi-resolution feature grid for the deformation field with a displacement total variation loss to effectively learn motion with video diffusion guidance in the second stage. Through a user preference study, we demonstrate that our approach significantly advances image and motion quality, 3D consistency and text fidelity for text-to-4D generation compared to baseline approaches. Thanks to its motion-disentangled representation, Dream-in-4D can also be easily adapted for controllable generation where appearance is defined by one or multiple images, without the need to modify the motion learning stage. Thus, our method offers, for the first time, a unified approach for text-to-4D, image-to-4D and personalized 4D generation tasks.
- Abstract(参考訳): 大規模な拡散生成モデルは、ユーザが提供するテキストプロンプトと画像から画像、ビデオ、および3Dアセットの作成を大幅に単純化する。
しかし,拡散誘導によるテキスト・ツー・4次元動的3次元シーン生成の課題は未解決のままである。
まず,(1)3Dと2Dの拡散誘導を利用して,第1段階で高品質な静的な3D資産を効果的に学習するDream-in-4D,(2)学習した静的な資産をその変形から明示的に切り離す変形可能なニューラルラジアンス場,(3)変位総変動損失のある変形場のためのマルチレゾル特徴格子を用いてビデオ拡散誘導を効果的に学習するDream-in-4Dを提案する。
ユーザの嗜好調査を通じて,本手法はベースラインアプローチと比較して,画像品質,3次元一貫性,テキストの忠実度を著しく向上することを示した。
モーションディスタングル表現のおかげで、Dream-in-4Dは、モーション学習ステージを変更することなく、1つまたは複数の画像によって外観が定義される制御可能な世代に容易に適応することができる。
そこで本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一的なアプローチを提供する。
関連論文リスト
- 4Dynamic: Text-to-4D Generation with Hybrid Priors [56.918589589853184]
本稿では,ビデオによる直接監督によって動的振幅と信頼性を保証し,テキストから4Dへ変換する新しい手法を提案する。
本手法は,テキスト・ツー・4D生成だけでなく,モノクロ映像からの4D生成も可能にしている。
論文 参考訳(メタデータ) (2024-07-17T16:02:55Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z) - Animate124: Animating One Image to 4D Dynamic Scene [108.17635645216214]
Animate124は、テキストによる動作記述を通じて、単一のWildイメージを3Dビデオにアニメーションする最初の作品である。
提案手法は,既存のベースラインよりも大幅に進歩したことを示す。
論文 参考訳(メタデータ) (2023-11-24T16:47:05Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。