論文の概要: AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and
Reconstruction with Canonical Score Distillation
- arxiv url: http://arxiv.org/abs/2312.03795v1
- Date: Wed, 6 Dec 2023 14:13:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:28:08.821703
- Title: AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and
Reconstruction with Canonical Score Distillation
- Title(参考訳): AnimatableDreamer: テキストガイドによる非剛性3次元モデル生成とカノニカルスコア蒸留による再構成
- Authors: Xinzhou Wang, Yikai Wang, Junliang Ye, Zhengyi Wang, Fuchun Sun,
Pengkun Liu, Ling Wang, Kai Sun, Xintong Wang, Bin He
- Abstract要約: モノクロ映像から多種多様な非剛体オブジェクトを生成できるテキストから4D生成フレームワークを提案する。
AnimatableDreamerは、Canonical Score Distillationと呼ばれる新しい最適化設計を備えています。
本実験は,モノクロ映像から高柔軟性テキスト誘導型3Dモデルを生成する際の本手法の有効性を実証するものである。
- 参考スコア(独自算出の注目度): 24.765210852545426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D model adaptations have advanced static 3D model quality, but
sequential 3D model generation, particularly for animatable objects with large
motions, is still scarce. Our work proposes AnimatableDreamer, a text-to-4D
generation framework capable of generating diverse categories of non-rigid
objects while adhering to the object motions extracted from a monocular video.
At its core, AnimatableDreamer is equipped with our novel optimization design
dubbed Canonical Score Distillation (CSD), which simplifies the generation
dimension from 4D to 3D by denoising over different frames in the time-varying
camera spaces while conducting the distillation process in a unique canonical
space shared per video. Concretely, CSD ensures that score gradients
back-propagate to the canonical space through differentiable warping, hence
guaranteeing the time-consistent generation and maintaining morphological
plausibility across different poses. By lifting the 3D generator to 4D with
warping functions, AnimatableDreamer offers a novel perspective on non-rigid 3D
model generation and reconstruction. Besides, with inductive knowledge from a
multi-view consistent diffusion model, CSD regularizes reconstruction from
novel views, thus cyclically enhancing the generation process. Extensive
experiments demonstrate the capability of our method in generating
high-flexibility text-guided 3D models from the monocular video, while also
showing improved reconstruction performance over typical non-rigid
reconstruction methods. Project page https://AnimatableDreamer.github.io.
- Abstract(参考訳): テキストから3Dモデルへの適応は、高度な静的な3Dモデルの品質を持つが、特に大きな動きを持つアニマタブルオブジェクトに対しては、シーケンシャルな3Dモデル生成は依然として不十分である。
本研究は,モノクロ映像から抽出した物体の動きに付着しながら,多種多様な非剛体物体を生成できるテキストから4D生成フレームワークAnimatableDreamerを提案する。
animatabledreamerの中核となるのが、canonical score distillation(csd)と呼ばれる新しい最適化デザインです。これは、ビデオ毎に共有されるユニークな正準空間で蒸留処理を行いながら、時間的に変化するカメラ空間の異なるフレームをノイズにすることで、生成次元を4dから3dに単純化するものです。
具体的には、CSDは、スコア勾配が微分可能なワープによって正準空間に逆伝播することを保証し、したがって時間一貫性の生成を保証し、異なるポーズにおける形態的確率を維持する。
3dジェネレータをワーピング機能付き4dに引き上げることで、animatabledreamerは非剛性3dモデルの生成と再構成に関する新しい視点を提供する。
さらに、多視点一貫した拡散モデルからの帰納的知識により、CSDは新規な視点からの再構成を規則化し、生成過程を循環的に強化する。
広汎な実験により, モノクロ映像から高柔軟性テキスト誘導3次元モデルを生成するとともに, 通常の非剛性再構成法よりも再現性能が向上した。
プロジェクトページhttps://animatabledreamer.github.io.com
関連論文リスト
- SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency [37.96042037188354]
本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。
論文 参考訳(メタデータ) (2024-07-24T17:59:43Z) - 4Dynamic: Text-to-4D Generation with Hybrid Priors [56.918589589853184]
本稿では,ビデオによる直接監督によって動的振幅と信頼性を保証し,テキストから4Dへ変換する新しい手法を提案する。
本手法は,テキスト・ツー・4D生成だけでなく,モノクロ映像からの4D生成も可能にしている。
論文 参考訳(メタデータ) (2024-07-17T16:02:55Z) - EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。
3次元モデルからの幾何的一貫性と時間的滑らかさに関する知識を精査し、密集した多視点画像を直接サンプリングする。
非常にシームレスで一貫した4Dアセットを生成する上で,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-02T17:58:03Z) - STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。
提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:16:33Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation [101.2317840114147]
We present UniDream, a text-to-3D generation framework by integration priors。
提案手法は,(1)アルベド正規配位型多視点拡散・再構成モデルを得るための2相学習プロセス,(2)訓練された再構成・拡散モデルを用いたスコア蒸留サンプル(SDS)に基づく幾何およびアルベドテクスチャのプログレッシブ生成手順,(3)安定拡散モデルに基づく固定アルベドを保ちながらPBR生成を確定するSDSの革新的な応用,の3つからなる。
論文 参考訳(メタデータ) (2023-12-14T09:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。