Fugu-MT 論文翻訳(概要): Animate124: Animating One Image to 4D Dynamic Scene

論文の概要: Animate124: Animating One Image to 4D Dynamic Scene

arxiv url: http://arxiv.org/abs/2311.14603v2
Date: Mon, 19 Feb 2024 02:30:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 04:33:53.897424
Title: Animate124: Animating One Image to 4D Dynamic Scene
Title（参考訳）: Animate124:1枚の画像を4Dダイナミックシーンにアニメーション
Authors: Yuyang Zhao, Zhiwen Yan, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee
Abstract要約: Animate124は、テキストによる動作記述を通じて、単一のWildイメージを3Dビデオにアニメーションする最初の作品である。提案手法は,既存のベースラインよりも大幅に進歩したことを示す。
参考スコア（独自算出の注目度）: 108.17635645216214
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Animate124 (Animate-one-image-to-4D), the first work to animate a single in-the-wild image into 3D video through textual motion descriptions, an underexplored problem with significant applications. Our 4D generation leverages an advanced 4D grid dynamic Neural Radiance Field (NeRF) model, optimized in three distinct stages using multiple diffusion priors. Initially, a static model is optimized using the reference image, guided by 2D and 3D diffusion priors, which serves as the initialization for the dynamic NeRF. Subsequently, a video diffusion model is employed to learn the motion specific to the subject. However, the object in the 3D videos tends to drift away from the reference image over time. This drift is mainly due to the misalignment between the text prompt and the reference image in the video diffusion model. In the final stage, a personalized diffusion prior is therefore utilized to address the semantic drift. As the pioneering image-text-to-4D generation framework, our method demonstrates significant advancements over existing baselines, evidenced by comprehensive quantitative and qualitative assessments.
Abstract（参考訳）: Animate124 (Animate-one-image-to-4D) は、テキストによる動作記述を通じて、単一のウィジェット内画像を3Dビデオにアニメーション化するための最初の試みである。我々の4D生成は、複数の拡散前駆体を用いて3つの異なる段階に最適化された、高度な4Dグリッド動的ニューラルレージアンス場(NeRF)モデルを活用する。当初、静的モデルは参照画像を用いて最適化され、2Dおよび3D拡散先行により誘導され、動的NeRFの初期化として機能する。その後、映像拡散モデルを用いて、被写体特有の動きを学習する。しかし、3dビデオの中のオブジェクトは、時間とともに参照画像から離れる傾向がある。このドリフトは主に、ビデオ拡散モデルにおけるテキストプロンプトと参照画像とのずれによるものである。最終段階では、パーソナライズされた拡散先行がセマンティックドリフトに対処するために利用される。先駆的な画像テキストから4D生成フレームワークである本手法は,定量的および定性的な評価により,既存のベースラインよりも大幅に進歩したことを示す。

関連論文リスト

Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文参考訳（メタデータ） (2025-11-01T11:16:25Z)
4Dynamic: Text-to-4D Generation with Hybrid Priors [56.918589589853184]
本稿では,ビデオによる直接監督によって動的振幅と信頼性を保証し,テキストから4Dへ変換する新しい手法を提案する。本手法は,テキスト・ツー・4D生成だけでなく,モノクロ映像からの4D生成も可能にしている。
論文参考訳（メタデータ） (2024-07-17T16:02:55Z)
Animate3D: Animating Any 3D Model with Multi-view Video Diffusion [47.05131487114018]
Animate3Dは静的な3Dモデルをアニメーションするための新しいフレームワークである。本研究では,3Dオブジェクトのアニメーション化に多視点ビデオ拡散プリミティブを活用するために,再構成と4Dスコア蒸留サンプリング(4D-SDS)を組み合わせたフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-16T05:35:57Z)
MotionDreamer: Exploring Semantic Video Diffusion features for Zero-Shot 3D Mesh Animation [10.263762787854862]
本稿では,ビデオ拡散モデルから抽出した動きに基づいて,様々な3次元形状の自動アニメーションを行う手法を提案する。既存のコンピュータグラフィックスパイプラインと互換性のあるメッシュベースの明示的な表現を活用します。我々の時間効率ゼロショット法は,多種多様な3次元形状を再アニメーションする優れた性能を実現する。
論文参考訳（メタデータ） (2024-05-30T15:30:38Z)
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文参考訳（メタデータ） (2024-05-26T17:47:34Z)
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。 4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文参考訳（メタデータ） (2023-12-21T11:41:02Z)
A Unified Approach for Text- and Image-guided 4D Scene Generation [58.658768832653834]
本研究では,テキストから4Dへの新たな2段階合成手法であるDream-in-4Dを提案する。提案手法は,画像の画質,3次元整合性,テキスト・ツー・4次元生成におけるテキストの忠実度を著しく向上することを示す。本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一されたアプローチを提供する。
論文参考訳（メタデータ） (2023-11-28T15:03:53Z)
Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文参考訳（メタデータ） (2023-01-26T18:14:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。