論文の概要: Animate3D: Animating Any 3D Model with Multi-view Video Diffusion
- arxiv url: http://arxiv.org/abs/2407.11398v1
- Date: Tue, 16 Jul 2024 05:35:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 18:22:47.522956
- Title: Animate3D: Animating Any 3D Model with Multi-view Video Diffusion
- Title(参考訳): Animate3D:マルチビュービデオ拡散によるどんな3Dモデルでもアニメーション化
- Authors: Yanqin Jiang, Chaohui Yu, Chenjie Cao, Fan Wang, Weiming Hu, Jin Gao,
- Abstract要約: Animate3Dは静的な3Dモデルをアニメーションするための新しいフレームワークである。
MV-VDMは静的3Dオブジェクトのマルチビューレンダリングに条件付けされている。
Animate3Dは従来のアプローチよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 47.05131487114018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in 4D generation mainly focus on generating 4D content by distilling pre-trained text or single-view image-conditioned models. It is inconvenient for them to take advantage of various off-the-shelf 3D assets with multi-view attributes, and their results suffer from spatiotemporal inconsistency owing to the inherent ambiguity in the supervision signals. In this work, we present Animate3D, a novel framework for animating any static 3D model. The core idea is two-fold: 1) We propose a novel multi-view video diffusion model (MV-VDM) conditioned on multi-view renderings of the static 3D object, which is trained on our presented large-scale multi-view video dataset (MV-Video). 2) Based on MV-VDM, we introduce a framework combining reconstruction and 4D Score Distillation Sampling (4D-SDS) to leverage the multi-view video diffusion priors for animating 3D objects. Specifically, for MV-VDM, we design a new spatiotemporal attention module to enhance spatial and temporal consistency by integrating 3D and video diffusion models. Additionally, we leverage the static 3D model's multi-view renderings as conditions to preserve its identity. For animating 3D models, an effective two-stage pipeline is proposed: we first reconstruct motions directly from generated multi-view videos, followed by the introduced 4D-SDS to refine both appearance and motion. Qualitative and quantitative experiments demonstrate that Animate3D significantly outperforms previous approaches. Data, code, and models will be open-released.
- Abstract(参考訳): 近年の4D生成技術は、事前訓練されたテキストや単一ビューの画像条件付きモデルを蒸留することによって、主に4Dコンテンツを生成することに重点を置いている。
多視点特性を持つオフ・ザ・シェルフの3Dアセットを利用するのは不便であり、それらの結果は、監視信号の固有のあいまいさによる時空間的不整合に悩まされる。
本稿では,静的な3Dモデルをアニメーションする新しいフレームワークであるAnimate3Dを紹介する。
中心となる考え方は2つあります。
1) 静的な3Dオブジェクトの多視点レンダリングを前提とした新しい多視点ビデオ拡散モデル(MV-VDM)を提案し, 提案した大規模多視点ビデオデータセット(MV-Video)をトレーニングした。
2) MV-VDMをベースとした4次元スコア蒸留サンプリング(4D-SDS)と4次元スコア蒸留サンプリング(4D-SDS)を組み合わせたフレームワークを導入し,3次元オブジェクトのアニメーション化に多視点ビデオ拡散の先駆けを生かした。
具体的には,MV-VDMに対して,空間的・時間的整合性を高めるために3次元およびビデオ拡散モデルを統合することで,新しい時空間アテンションモジュールを設計する。
さらに,静的な3次元モデルのマルチビューレンダリングを条件として,そのアイデンティティを保持する。
まず,生成したマルチビュービデオから直接動きを再構成し,次に4D-SDSを導入して外観と動きを改良する。
定性的かつ定量的な実験は、Animate3Dが以前のアプローチよりも大幅に優れていることを示した。
データ、コード、モデルは公開されます。
関連論文リスト
- Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。
Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文 参考訳(メタデータ) (2024-09-11T17:58:57Z) - SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency [37.96042037188354]
本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。
論文 参考訳(メタデータ) (2024-07-24T17:59:43Z) - MotionDreamer: Exploring Semantic Video Diffusion features for Zero-Shot 3D Mesh Animation [10.263762787854862]
本稿では,ビデオ拡散モデルから抽出した動きに基づいて,様々な3次元形状の自動アニメーションを行う手法を提案する。
既存のコンピュータグラフィックスパイプラインと互換性のあるメッシュベースの明示的な表現を活用します。
我々の時間効率ゼロショット法は,多種多様な3次元形状を再アニメーションする優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-30T15:30:38Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。
3次元モデルからの幾何的一貫性と時間的滑らかさに関する知識を精査し、密集した多視点画像を直接サンプリングする。
非常にシームレスで一貫した4Dアセットを生成する上で,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-02T17:58:03Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Animate124: Animating One Image to 4D Dynamic Scene [108.17635645216214]
Animate124は、テキストによる動作記述を通じて、単一のWildイメージを3Dビデオにアニメーションする最初の作品である。
提案手法は,既存のベースラインよりも大幅に進歩したことを示す。
論文 参考訳(メタデータ) (2023-11-24T16:47:05Z) - MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion [57.90404618420159]
本稿では3次元モーション生成手法であるマルチビューアンセストラルサンプリング(MAS)を紹介する。
MASは、同じ3Dモーションの異なるビューを表す複数の2Dモーションシーケンスを同時に認知することで機能する。
プロバスケットボールの操り方を描いたビデオから得られた2DポーズデータをMASで実証する。
論文 参考訳(メタデータ) (2023-10-23T09:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。