論文の概要: AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation
- arxiv url: http://arxiv.org/abs/2312.03795v3
- Date: Thu, 28 Mar 2024 09:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 21:12:21.955991
- Title: AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation
- Title(参考訳): AnimatableDreamer: テキストガイドによる非剛性3次元モデル生成とカノニカルスコア蒸留による再構成
- Authors: Xinzhou Wang, Yikai Wang, Junliang Ye, Zhengyi Wang, Fuchun Sun, Pengkun Liu, Ling Wang, Kai Sun, Xintong Wang, Bin He,
- Abstract要約: 本研究では,モノクロビデオから抽出した骨格上に,多種多様な非剛体オブジェクトを生成できるテキストから4D生成フレームワークを提案する。
AnimatableDreamerには、CSD(Canonical Score Distillation)と呼ばれる新しい最適化設計が搭載されています。
- 参考スコア(独自算出の注目度): 23.967728238723772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in 3D generation have facilitated sequential 3D model generation (a.k.a 4D generation), yet its application for animatable objects with large motion remains scarce. Our work proposes AnimatableDreamer, a text-to-4D generation framework capable of generating diverse categories of non-rigid objects on skeletons extracted from a monocular video. At its core, AnimatableDreamer is equipped with our novel optimization design dubbed Canonical Score Distillation (CSD), which lifts 2D diffusion for temporal consistent 4D generation. CSD, designed from a score gradient perspective, generates a canonical model with warp-robustness across different articulations. Notably, it also enhances the authenticity of bones and skinning by integrating inductive priors from a diffusion model. Furthermore, with multi-view distillation, CSD infers invisible regions, thereby improving the fidelity of monocular non-rigid reconstruction. Extensive experiments demonstrate the capability of our method in generating high-flexibility text-guided 3D models from the monocular video, while also showing improved reconstruction performance over existing non-rigid reconstruction methods.
- Abstract(参考訳): 3D生成の進歩はシーケンシャルな3Dモデル生成を促進する(つまり4D生成)が、大きな動きを持つアニマタブル物体への応用は依然として少ない。
本研究は,モノクロビデオから抽出した骨格上の非剛体物体の多様なカテゴリを生成可能なテキストから4D生成フレームワークであるAnimatableDreamerを提案する。
AnimatableDreamerは、CSD(Canonical Score Distillation)と呼ばれる新しい最適化設計を備えています。
CSDはスコア勾配の観点から設計され、異なる調節をまたいだワープ・ロバスト性を持つ標準モデルを生成する。
特に、拡散モデルから誘導的前駆体を統合することにより、骨と皮膚の信頼性を高める。
さらに, マルチビュー蒸留では, CSDは見えない領域を推測し, 単分子非剛体再構築の忠実度を向上する。
モノクロビデオから高柔軟性テキスト誘導型3Dモデルを生成する上で,本手法が有効であることを示すとともに,既存の非剛性再建法よりも再現性が向上したことを示す。
関連論文リスト
- SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Orthogonal Diffusion Models [6.738732514502613]
動的3Dコンテンツ作成のための新しいフレームワークであるDiffusion$2を提示する。
私たちのフレームワークは数分で4Dコンテンツを生成できます。
論文 参考訳(メタデータ) (2024-04-02T17:58:03Z) - STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。
提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:16:33Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - UniDream: Unifying Diffusion Priors for Relightable Text-to-3D
Generation [104.60008771175532]
We present UniDream, a text-to-3D generation framework by integration priors。
提案手法は,(1)アルベド正規配位型多視点拡散・再構成モデルを得るための2相学習プロセス,(2)訓練された再構成・拡散モデルを用いたスコア蒸留サンプル(SDS)に基づく幾何およびアルベドテクスチャのプログレッシブ生成手順,(3)安定拡散モデルに基づく固定アルベドを保ちながらPBR生成を確定するSDSの革新的な応用,の3つからなる。
論文 参考訳(メタデータ) (2023-12-14T09:07:37Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。