論文の概要: Animate124: Animating One Image to 4D Dynamic Scene
- arxiv url: http://arxiv.org/abs/2311.14603v2
- Date: Mon, 19 Feb 2024 02:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 04:33:53.897424
- Title: Animate124: Animating One Image to 4D Dynamic Scene
- Title(参考訳): Animate124:1枚の画像を4Dダイナミックシーンにアニメーション
- Authors: Yuyang Zhao, Zhiwen Yan, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee
Lee
- Abstract要約: Animate124は、テキストによる動作記述を通じて、単一のWildイメージを3Dビデオにアニメーションする最初の作品である。
提案手法は,既存のベースラインよりも大幅に進歩したことを示す。
- 参考スコア(独自算出の注目度): 108.17635645216214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Animate124 (Animate-one-image-to-4D), the first work to animate
a single in-the-wild image into 3D video through textual motion descriptions,
an underexplored problem with significant applications. Our 4D generation
leverages an advanced 4D grid dynamic Neural Radiance Field (NeRF) model,
optimized in three distinct stages using multiple diffusion priors. Initially,
a static model is optimized using the reference image, guided by 2D and 3D
diffusion priors, which serves as the initialization for the dynamic NeRF.
Subsequently, a video diffusion model is employed to learn the motion specific
to the subject. However, the object in the 3D videos tends to drift away from
the reference image over time. This drift is mainly due to the misalignment
between the text prompt and the reference image in the video diffusion model.
In the final stage, a personalized diffusion prior is therefore utilized to
address the semantic drift. As the pioneering image-text-to-4D generation
framework, our method demonstrates significant advancements over existing
baselines, evidenced by comprehensive quantitative and qualitative assessments.
- Abstract(参考訳): Animate124 (Animate-one-image-to-4D) は、テキストによる動作記述を通じて、単一のウィジェット内画像を3Dビデオにアニメーション化するための最初の試みである。
我々の4D生成は、複数の拡散前駆体を用いて3つの異なる段階に最適化された、高度な4Dグリッド動的ニューラルレージアンス場(NeRF)モデルを活用する。
当初、静的モデルは参照画像を用いて最適化され、2Dおよび3D拡散先行により誘導され、動的NeRFの初期化として機能する。
その後、映像拡散モデルを用いて、被写体特有の動きを学習する。
しかし、3dビデオの中のオブジェクトは、時間とともに参照画像から離れる傾向がある。
このドリフトは主に、ビデオ拡散モデルにおけるテキストプロンプトと参照画像とのずれによるものである。
最終段階では、パーソナライズされた拡散先行がセマンティックドリフトに対処するために利用される。
先駆的な画像テキストから4D生成フレームワークである本手法は,定量的および定性的な評価により,既存のベースラインよりも大幅に進歩したことを示す。
関連論文リスト
- 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [126.75952654863667]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap
Between Text-to-2D and Text-to-3D Generation [64.12848271290119]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文 参考訳(メタデータ) (2023-11-30T07:23:00Z) - A Unified Approach for Text- and Image-guided 4D Scene Generation [61.60025506794648]
本研究では,テキストから4Dへの新たな2段階合成手法であるDream-in-4Dを提案する。
提案手法は,画像の画質,3次元整合性,テキスト・ツー・4次元生成におけるテキストの忠実度を著しく向上することを示す。
本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一されたアプローチを提供する。
論文 参考訳(メタデータ) (2023-11-28T15:03:53Z) - Consistent4D: Consistent 360{\deg} Dynamic Object Generation from
Monocular Video [15.621374353364468]
Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。
我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
論文 参考訳(メタデータ) (2023-11-06T03:26:43Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。