論文の概要: Bringing Objects to Life: training-free 4D generation from 3D objects through view consistent noise
- arxiv url: http://arxiv.org/abs/2412.20422v2
- Date: Tue, 27 May 2025 17:40:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.099533
- Title: Bringing Objects to Life: training-free 4D generation from 3D objects through view consistent noise
- Title(参考訳): オブジェクトを人生に持ち込む:一貫したノイズを通して3Dオブジェクトからトレーニング不要な4D生成
- Authors: Ohad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik,
- Abstract要約: テキストプロンプトを条件に4D生成を誘導することで,3Dオブジェクトをアニメーション化するためのトレーニング不要な手法を提案する。
まず,3次元メッシュを物体の視覚特性を保存する4次元ニューラルラジアンス場(NeRF)に変換する。
そして,テキスト駆動画像拡散モデルを用いてオブジェクトをアニメーション化する。
- 参考スコア(独自算出の注目度): 31.533802484121182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in generative models have enabled the creation of dynamic 4D content - 3D objects in motion - based on text prompts, which holds potential for applications in virtual worlds, media, and gaming. Existing methods provide control over the appearance of generated content, including the ability to animate 3D objects. However, their ability to generate dynamics is limited to the mesh datasets they were trained on, lacking any growth or structural development capability. In this work, we introduce a training-free method for animating 3D objects by conditioning on textual prompts to guide 4D generation, enabling custom general scenes while maintaining the original object's identity. We first convert a 3D mesh into a static 4D Neural Radiance Field (NeRF) that preserves the object's visual attributes. Then, we animate the object using an Image-to-Video diffusion model driven by text. To improve motion realism, we introduce a view-consistent noising protocol that aligns object perspectives with the noising process to promote lifelike movement, and a masked Score Distillation Sampling (SDS) loss that leverages attention maps to focus optimization on relevant regions, better preserving the original object. We evaluate our model on two different 3D object datasets for temporal coherence, prompt adherence, and visual fidelity, and find that our method outperforms the baseline based on multiview training, achieving better consistency with the textual prompt in hard scenarios.
- Abstract(参考訳): 生成モデルの最近の進歩により、テキストプロンプトに基づく動的4Dコンテンツ(動作中の3Dオブジェクト)の作成が可能となり、仮想世界、メディア、ゲームへの応用の可能性が高まっている。
既存の方法は、3Dオブジェクトをアニメーションする機能を含む、生成されたコンテンツの外観を制御する。
しかしながら、ダイナミックスを生成する能力はトレーニング対象のメッシュデータセットに限られており、成長や構造的な開発能力に欠ける。
本研究では,テキストのプロンプトを条件付けして3Dオブジェクトをアニメーションするトレーニングフリーな手法を導入し,オリジナルオブジェクトのアイデンティティを維持しながら,カスタムな汎用シーンを実現する。
まず、3Dメッシュを静的な4Dニューラルラジアンス場(NeRF)に変換し、オブジェクトの視覚特性を保存する。
そして,テキスト駆動画像拡散モデルを用いてオブジェクトをアニメーション化する。
動作リアリズムを改善するために,オブジェクトの視点をノイズ発生プロセスと整合させてライフライクな動きを促進させるビュー一貫性のあるノイズ発生プロトコルと,注目マップを活用するマスク付きスコア蒸留サンプリング(SDS)損失を導入し,関連する領域に最適化を集中させ,元のオブジェクトをよりよく保存する。
本研究では, 時間的コヒーレンス, プロンプト・アジェンス, 視覚的忠実性の2つの異なる3次元オブジェクト・データセット上で評価を行い, ハードシナリオにおけるテキスト・プロンプトとの整合性を向上し, マルチビュー・トレーニングに基づくベースラインよりも優れていることを示す。
関連論文リスト
- Video4DGen: Enhancing Video and 4D Generation through Mutual Optimization [31.956858341885436]
Video4DGenは、単一または複数の生成されたビデオから4D表現を生成するのに優れている新しいフレームワークである。
Video4DGenは、仮想現実、アニメーションなどにおけるアプリケーションのための強力なツールを提供する。
論文 参考訳(メタデータ) (2025-04-05T12:13:05Z) - AnimateMe: 4D Facial Expressions via Diffusion Models [72.63383191654357]
拡散モデルの最近の進歩により、2次元アニメーションにおける生成モデルの能力が向上した。
グラフニューラルネットワーク(GNN)は,メッシュ空間上で直接拡散過程を定式化し,新しい手法で拡散モデルを記述する。
これにより、メッシュ拡散モデルによる顔の変形の発生が容易になる。
論文 参考訳(メタデータ) (2024-03-25T21:40:44Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - A Unified Approach for Text- and Image-guided 4D Scene Generation [58.658768832653834]
本研究では,テキストから4Dへの新たな2段階合成手法であるDream-in-4Dを提案する。
提案手法は,画像の画質,3次元整合性,テキスト・ツー・4次元生成におけるテキストの忠実度を著しく向上することを示す。
本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一されたアプローチを提供する。
論文 参考訳(メタデータ) (2023-11-28T15:03:53Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。