論文の概要: AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and
Reconstruction with Canonical Score Distillation
- arxiv url: http://arxiv.org/abs/2312.03795v2
- Date: Wed, 20 Dec 2023 07:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 21:24:36.371898
- Title: AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and
Reconstruction with Canonical Score Distillation
- Title(参考訳): AnimatableDreamer: テキストガイドによる非剛性3次元モデル生成とカノニカルスコア蒸留による再構成
- Authors: Xinzhou Wang, Yikai Wang, Junliang Ye, Zhengyi Wang, Fuchun Sun,
Pengkun Liu, Ling Wang, Kai Sun, Xintong Wang, Bin He
- Abstract要約: モノクロ映像から多種多様な非剛体オブジェクトを生成できるテキストから4D生成フレームワークを提案する。
AnimatableDreamerは、Canonical Score Distillationと呼ばれる新しい最適化設計を備えています。
本実験は,モノクロ映像から高柔軟性テキスト誘導型3Dモデルを生成する際の本手法の有効性を実証するものである。
- 参考スコア(独自算出の注目度): 24.765210852545426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D model adaptations have advanced static 3D model quality, but
sequential 3D model generation, particularly for animatable objects with large
motions, is still scarce. Our work proposes AnimatableDreamer, a text-to-4D
generation framework capable of generating diverse categories of non-rigid
objects while adhering to the object motions extracted from a monocular video.
At its core, AnimatableDreamer is equipped with our novel optimization design
dubbed Canonical Score Distillation (CSD), which simplifies the generation
dimension from 4D to 3D by denoising over different frames in the time-varying
camera spaces while conducting the distillation process in a unique canonical
space shared per video. Concretely, CSD ensures that score gradients
back-propagate to the canonical space through differentiable warping, hence
guaranteeing the time-consistent generation and maintaining morphological
plausibility across different poses. By lifting the 3D generator to 4D with
warping functions, AnimatableDreamer offers a novel perspective on non-rigid 3D
model generation and reconstruction. Besides, with inductive knowledge from a
multi-view consistent diffusion model, CSD regularizes reconstruction from
novel views, thus cyclically enhancing the generation process. Extensive
experiments demonstrate the capability of our method in generating
high-flexibility text-guided 3D models from the monocular video, while also
showing improved reconstruction performance over typical non-rigid
reconstruction methods. Project page https://AnimatableDreamer.github.io.
- Abstract(参考訳): テキストから3Dモデルへの適応は、高度な静的な3Dモデルの品質を持つが、特に大きな動きを持つアニマタブルオブジェクトに対しては、シーケンシャルな3Dモデル生成は依然として不十分である。
本研究は,モノクロ映像から抽出した物体の動きに付着しながら,多種多様な非剛体物体を生成できるテキストから4D生成フレームワークAnimatableDreamerを提案する。
animatabledreamerの中核となるのが、canonical score distillation(csd)と呼ばれる新しい最適化デザインです。これは、ビデオ毎に共有されるユニークな正準空間で蒸留処理を行いながら、時間的に変化するカメラ空間の異なるフレームをノイズにすることで、生成次元を4dから3dに単純化するものです。
具体的には、CSDは、スコア勾配が微分可能なワープによって正準空間に逆伝播することを保証し、したがって時間一貫性の生成を保証し、異なるポーズにおける形態的確率を維持する。
3dジェネレータをワーピング機能付き4dに引き上げることで、animatabledreamerは非剛性3dモデルの生成と再構成に関する新しい視点を提供する。
さらに、多視点一貫した拡散モデルからの帰納的知識により、CSDは新規な視点からの再構成を規則化し、生成過程を循環的に強化する。
広汎な実験により, モノクロ映像から高柔軟性テキスト誘導3次元モデルを生成するとともに, 通常の非剛性再構成法よりも再現性能が向上した。
プロジェクトページhttps://animatabledreamer.github.io.com
関連論文リスト
- SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Orthogonal Diffusion Models [6.738732514502613]
動的3Dコンテンツ作成のための新しいフレームワークであるDiffusion$2を提示する。
私たちのフレームワークは数分で4Dコンテンツを生成できます。
論文 参考訳(メタデータ) (2024-04-02T17:58:03Z) - STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。
提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:16:33Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - UniDream: Unifying Diffusion Priors for Relightable Text-to-3D
Generation [104.60008771175532]
We present UniDream, a text-to-3D generation framework by integration priors。
提案手法は,(1)アルベド正規配位型多視点拡散・再構成モデルを得るための2相学習プロセス,(2)訓練された再構成・拡散モデルを用いたスコア蒸留サンプル(SDS)に基づく幾何およびアルベドテクスチャのプログレッシブ生成手順,(3)安定拡散モデルに基づく固定アルベドを保ちながらPBR生成を確定するSDSの革新的な応用,の3つからなる。
論文 参考訳(メタデータ) (2023-12-14T09:07:37Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。