論文の概要: Bringing Objects to Life: 4D generation from 3D objects
- arxiv url: http://arxiv.org/abs/2412.20422v1
- Date: Sun, 29 Dec 2024 10:12:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:20.957046
- Title: Bringing Objects to Life: 4D generation from 3D objects
- Title(参考訳): オブジェクトを人生に持ち込む:3Dオブジェクトから4D生成
- Authors: Ohad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik,
- Abstract要約: ユーザが提供する3Dオブジェクトをテキストプロンプトに条件付けしてアニメーション化して4D生成を誘導する手法を提案する。
本手法はLPIPSスコアを用いた個人認証の3倍の精度向上を実現する。
- 参考スコア(独自算出の注目度): 31.533802484121182
- License:
- Abstract: Recent advancements in generative modeling now enable the creation of 4D content (moving 3D objects) controlled with text prompts. 4D generation has large potential in applications like virtual worlds, media, and gaming, but existing methods provide limited control over the appearance and geometry of generated content. In this work, we introduce a method for animating user-provided 3D objects by conditioning on textual prompts to guide 4D generation, enabling custom animations while maintaining the identity of the original object. We first convert a 3D mesh into a ``static" 4D Neural Radiance Field (NeRF) that preserves the visual attributes of the input object. Then, we animate the object using an Image-to-Video diffusion model driven by text. To improve motion realism, we introduce an incremental viewpoint selection protocol for sampling perspectives to promote lifelike movement and a masked Score Distillation Sampling (SDS) loss, which leverages attention maps to focus optimization on relevant regions. We evaluate our model in terms of temporal coherence, prompt adherence, and visual fidelity and find that our method outperforms baselines that are based on other approaches, achieving up to threefold improvements in identity preservation measured using LPIPS scores, and effectively balancing visual quality with dynamic content.
- Abstract(参考訳): 生成モデリングの最近の進歩により、テキストプロンプトで制御される4Dコンテンツ(移動3Dオブジェクト)の作成が可能になった。
4D生成は、仮想世界、メディア、ゲームなどのアプリケーションにおいて大きな可能性を秘めているが、既存の方法は、生成されたコンテンツの外観と形状を限定的に制御する。
本研究では,ユーザが提供する3Dオブジェクトを,テキストプロンプトに条件付けして4D生成を誘導し,元のオブジェクトの同一性を保ちながら,カスタムアニメーションを可能にする手法を提案する。
まず、3Dメッシュを「静的」な4Dニューラルラジアンス場(NeRF)に変換し、入力対象の視覚特性を保存する。
そして,テキスト駆動画像拡散モデルを用いてオブジェクトをアニメーション化する。
動作リアリズムを改善するために,ライフライクな動作を促進するために視点をサンプリングするインクリメンタルな視点選択プロトコルと,関連する領域に注目マップを集中させるマスク付きスコア蒸留サンプリング(SDS)の損失を導入する。
提案手法は,時間的コヒーレンス,即効性,視覚的忠実度の観点から評価し,他のアプローチに基づくベースラインよりも優れ,LPIPSスコアを用いて測定されたアイデンティティ保存の最大3倍の改善を実現し,視覚的品質と動的コンテンツとのバランスを効果的に行う。
関連論文リスト
- AnimateMe: 4D Facial Expressions via Diffusion Models [72.63383191654357]
拡散モデルの最近の進歩により、2次元アニメーションにおける生成モデルの能力が向上した。
グラフニューラルネットワーク(GNN)は,メッシュ空間上で直接拡散過程を定式化し,新しい手法で拡散モデルを記述する。
これにより、メッシュ拡散モデルによる顔の変形の発生が容易になる。
論文 参考訳(メタデータ) (2024-03-25T21:40:44Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - A Unified Approach for Text- and Image-guided 4D Scene Generation [58.658768832653834]
本研究では,テキストから4Dへの新たな2段階合成手法であるDream-in-4Dを提案する。
提案手法は,画像の画質,3次元整合性,テキスト・ツー・4次元生成におけるテキストの忠実度を著しく向上することを示す。
本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一されたアプローチを提供する。
論文 参考訳(メタデータ) (2023-11-28T15:03:53Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。