論文の概要: Text-To-4D Dynamic Scene Generation
- arxiv url: http://arxiv.org/abs/2301.11280v1
- Date: Thu, 26 Jan 2023 18:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 12:57:57.808471
- Title: Text-To-4D Dynamic Scene Generation
- Title(参考訳): テキストから4次元動的シーン生成
- Authors: Uriel Singer, Shelly Sheynin, Adam Polyak, Oron Ashual, Iurii Makarov,
Filippos Kokkinos, Naman Goyal, Andrea Vedaldi, Devi Parikh, Justin Johnson,
Yaniv Taigman
- Abstract要約: テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
- 参考スコア(独自算出の注目度): 111.89517759596345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MAV3D (Make-A-Video3D), a method for generating three-dimensional
dynamic scenes from text descriptions. Our approach uses a 4D dynamic Neural
Radiance Field (NeRF), which is optimized for scene appearance, density, and
motion consistency by querying a Text-to-Video (T2V) diffusion-based model. The
dynamic video output generated from the provided text can be viewed from any
camera location and angle, and can be composited into any 3D environment. MAV3D
does not require any 3D or 4D data and the T2V model is trained only on
Text-Image pairs and unlabeled videos. We demonstrate the effectiveness of our
approach using comprehensive quantitative and qualitative experiments and show
an improvement over previously established internal baselines. To the best of
our knowledge, our method is the first to generate 3D dynamic scenes given a
text description.
- Abstract(参考訳): テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
本手法では,テキスト・トゥ・ビデオ(t2v)拡散モデルに照会することにより,シーンの出現,密度,動きの一貫性を最適化した4次元動的神経放射場(nerf)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
MAV3Dは3Dや4Dのデータを一切必要とせず、T2Vモデルはテキストと画像のペアとラベルなしのビデオでのみ訓練される。
提案手法の有効性を定量的および定性的実験を用いて実証し, 従来確立されていた内部ベースラインよりも改善したことを示す。
我々の知る限りでは,本手法はテキスト記述による3次元動的シーンを初めて生成する手法である。
関連論文リスト
- Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。
しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。
本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:59Z) - VividDream: Generating 3D Scene with Ambient Dynamics [13.189732244489225]
一つの入力画像やテキストプロンプトから周囲のダイナミックスを持つ探索可能な4Dシーンを生成する方法であるVividDreamを紹介する。
VividDreamは、さまざまな実画像とテキストプロンプトに基づいて、魅力的な4D体験を提供する。
論文 参考訳(メタデータ) (2024-05-30T17:59:24Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z) - A Unified Approach for Text- and Image-guided 4D Scene Generation [58.658768832653834]
本研究では,テキストから4Dへの新たな2段階合成手法であるDream-in-4Dを提案する。
提案手法は,画像の画質,3次元整合性,テキスト・ツー・4次元生成におけるテキストの忠実度を著しく向上することを示す。
本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一されたアプローチを提供する。
論文 参考訳(メタデータ) (2023-11-28T15:03:53Z) - Animate124: Animating One Image to 4D Dynamic Scene [108.17635645216214]
Animate124は、テキストによる動作記述を通じて、単一のWildイメージを3Dビデオにアニメーションする最初の作品である。
提案手法は,既存のベースラインよりも大幅に進歩したことを示す。
論文 参考訳(メタデータ) (2023-11-24T16:47:05Z) - Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields [29.907615852310204]
テキストプロンプトから多種多様な3Dシーンを生成できるText2NeRFを提案する。
本手法では,追加のトレーニングデータを必要としないが,入力としてシーンを自然言語で記述するのみである。
論文 参考訳(メタデータ) (2023-05-19T10:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。