論文の概要: Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Orthogonal Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.02148v2
- Date: Sat, 20 Apr 2024 14:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 22:45:14.685812
- Title: Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Orthogonal Diffusion Models
- Title(参考訳): 拡散$^2$:直交拡散モデルのスコア構成による動的3次元コンテンツ生成
- Authors: Zeyu Yang, Zijie Pan, Chun Gu, Li Zhang,
- Abstract要約: 動的3Dコンテンツ作成のための新しいフレームワークであるDiffusion$2を提示する。
私たちのフレームワークは数分で4Dコンテンツを生成できます。
- 参考スコア(独自算出の注目度): 6.738732514502613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in 3D generation are predominantly propelled by improvements in 3D-aware image diffusion models which are pretrained on Internet-scale image data and fine-tuned on massive 3D data, offering the capability of producing highly consistent multi-view images. However, due to the scarcity of synchronized multi-view video data, it is impractical to adapt this paradigm to 4D generation directly. Despite that, the available video and 3D data are adequate for training video and multi-view diffusion models that can provide satisfactory dynamic and geometric priors respectively. In this paper, we present Diffusion$^2$, a novel framework for dynamic 3D content creation that leverages the knowledge about geometric consistency and temporal smoothness from these models to directly sample dense multi-view and multi-frame images which can be employed to optimize continuous 4D representation. Specifically, we design a simple yet effective denoising strategy via score composition of video and multi-view diffusion models based on the probability structure of the images to be generated. Owing to the high parallelism of the image generation and the efficiency of the modern 4D reconstruction pipeline, our framework can generate 4D content within few minutes. Furthermore, our method circumvents the reliance on 4D data, thereby having the potential to benefit from the scalability of the foundation video and multi-view diffusion models. Extensive experiments demonstrate the efficacy of our proposed framework and its capability to flexibly adapt to various types of prompts.
- Abstract(参考訳): 近年の3D生成の進歩は、インターネット規模の画像データで事前訓練され、大量の3Dデータで微調整された3D対応画像拡散モデルの改善により、高度に一貫したマルチビュー画像を生成する能力によって大きく促進されている。
しかし、同期したマルチビュービデオデータが不足しているため、このパラダイムを4D生成に直接適用することは不可能である。
それにもかかわらず、利用可能なビデオと3Dデータは、ビデオと多視点拡散モデルのトレーニングに適しており、それぞれが満足できる動的および幾何学的事前情報を提供することができる。
本稿では,これらのモデルからの幾何的整合性および時間的滑らか性に関する知識を活用し,連続した4次元表現の最適化に使用できる高密度な多視点画像と多フレーム画像を直接サンプリングする動的3次元コンテンツ作成のための新しいフレームワークであるDiffusion$^2$を提案する。
具体的には、生成する画像の確率構造に基づいて、ビデオと多視点拡散モデルのスコア合成による簡易かつ効果的な復調戦略を設計する。
画像生成の並列性の高さと現代の4D再構成パイプラインの効率性により、我々のフレームワークは数分で4Dコンテンツを生成できる。
さらに,本手法は4次元データへの依存を回避し,基礎映像や多視点拡散モデルのスケーラビリティから恩恵を受ける可能性がある。
大規模な実験により,提案手法の有効性と各種のプロンプトに柔軟に適応する能力が実証された。
関連論文リスト
- SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency [37.96042037188354]
本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。
論文 参考訳(メタデータ) (2024-07-24T17:59:43Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。
提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:16:33Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。