論文の概要: Animate3D: Animating Any 3D Model with Multi-view Video Diffusion
- arxiv url: http://arxiv.org/abs/2407.11398v2
- Date: Mon, 9 Sep 2024 06:21:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 01:41:10.468712
- Title: Animate3D: Animating Any 3D Model with Multi-view Video Diffusion
- Title(参考訳): Animate3D:マルチビュービデオ拡散によるどんな3Dモデルでもアニメーション化
- Authors: Yanqin Jiang, Chaohui Yu, Chenjie Cao, Fan Wang, Weiming Hu, Jin Gao,
- Abstract要約: Animate3Dは静的な3Dモデルをアニメーションするための新しいフレームワークである。
本研究では,3Dオブジェクトのアニメーション化に多視点ビデオ拡散プリミティブを活用するために,再構成と4Dスコア蒸留サンプリング(4D-SDS)を組み合わせたフレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.05131487114018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in 4D generation mainly focus on generating 4D content by distilling pre-trained text or single-view image-conditioned models. It is inconvenient for them to take advantage of various off-the-shelf 3D assets with multi-view attributes, and their results suffer from spatiotemporal inconsistency owing to the inherent ambiguity in the supervision signals. In this work, we present Animate3D, a novel framework for animating any static 3D model. The core idea is two-fold: 1) We propose a novel multi-view video diffusion model (MV-VDM) conditioned on multi-view renderings of the static 3D object, which is trained on our presented large-scale multi-view video dataset (MV-Video). 2) Based on MV-VDM, we introduce a framework combining reconstruction and 4D Score Distillation Sampling (4D-SDS) to leverage the multi-view video diffusion priors for animating 3D objects. Specifically, for MV-VDM, we design a new spatiotemporal attention module to enhance spatial and temporal consistency by integrating 3D and video diffusion models. Additionally, we leverage the static 3D model's multi-view renderings as conditions to preserve its identity. For animating 3D models, an effective two-stage pipeline is proposed: we first reconstruct motions directly from generated multi-view videos, followed by the introduced 4D-SDS to refine both appearance and motion. Benefiting from accurate motion learning, we could achieve straightforward mesh animation. Qualitative and quantitative experiments demonstrate that Animate3D significantly outperforms previous approaches. Data, code, and models will be open-released.
- Abstract(参考訳): 近年の4D生成技術は、事前訓練されたテキストや単一ビューの画像条件付きモデルを蒸留することによって、主に4Dコンテンツを生成することに重点を置いている。
多視点特性を持つオフ・ザ・シェルフの3Dアセットを利用するのは不便であり、それらの結果は、監視信号の固有のあいまいさによる時空間的不整合に悩まされる。
本稿では,静的な3Dモデルをアニメーションする新しいフレームワークであるAnimate3Dを紹介する。
中心となる考え方は2つあります。
1) 静的な3Dオブジェクトの多視点レンダリングを前提とした新しい多視点ビデオ拡散モデル(MV-VDM)を提案し, 提案した大規模多視点ビデオデータセット(MV-Video)をトレーニングした。
2) MV-VDMをベースとした4次元スコア蒸留サンプリング(4D-SDS)と4次元スコア蒸留サンプリング(4D-SDS)を組み合わせたフレームワークを導入し,3次元オブジェクトのアニメーション化に多視点ビデオ拡散の先駆けを生かした。
具体的には,MV-VDMに対して,空間的・時間的整合性を高めるために3次元およびビデオ拡散モデルを統合することで,新しい時空間アテンションモジュールを設計する。
さらに,静的な3次元モデルのマルチビューレンダリングを条件として利用し,そのアイデンティティを保持する。
まず,生成したマルチビュービデオから直接動きを再構成し,次に4D-SDSを導入して外観と動きを改良する。
正確なモーション学習の恩恵を受ければ、簡単なメッシュアニメーションが実現できます。
定性的かつ定量的な実験は、Animate3Dが以前のアプローチよりも大幅に優れていることを示した。
データ、コード、モデルは公開されます。
関連論文リスト
- SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency [37.96042037188354]
本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。
論文 参考訳(メタデータ) (2024-07-24T17:59:43Z) - Bootstrap3D: Improving 3D Content Creation with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを備えた高品質な3Dアセットの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Orthogonal Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。
我々は,事前学習したビデオと多視点拡散モデルのスコア合成による,シンプルで効果的な復調戦略を設計する。
私たちのフレームワークは数分で4Dコンテンツを生成できます。
論文 参考訳(メタデータ) (2024-04-02T17:58:03Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Animate124: Animating One Image to 4D Dynamic Scene [108.17635645216214]
Animate124は、テキストによる動作記述を通じて、単一のWildイメージを3Dビデオにアニメーションする最初の作品である。
提案手法は,既存のベースラインよりも大幅に進歩したことを示す。
論文 参考訳(メタデータ) (2023-11-24T16:47:05Z) - MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion [57.90404618420159]
本稿では3次元モーション生成手法であるマルチビューアンセストラルサンプリング(MAS)を紹介する。
MASは、同じ3Dモーションの異なるビューを表す複数の2Dモーションシーケンスを同時に認知することで機能する。
プロバスケットボールの操り方を描いたビデオから得られた2DポーズデータをMASで実証する。
論文 参考訳(メタデータ) (2023-10-23T09:05:18Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。