Fugu-MT 論文翻訳(概要): AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation

論文の概要: AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation

arxiv url: http://arxiv.org/abs/2312.03795v3
Date: Thu, 28 Mar 2024 09:40:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 21:12:21.955991
Title: AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation
Title（参考訳）: AnimatableDreamer: テキストガイドによる非剛性3次元モデル生成とカノニカルスコア蒸留による再構成
Authors: Xinzhou Wang, Yikai Wang, Junliang Ye, Zhengyi Wang, Fuchun Sun, Pengkun Liu, Ling Wang, Kai Sun, Xintong Wang, Bin He,
Abstract要約: 本研究では,モノクロビデオから抽出した骨格上に,多種多様な非剛体オブジェクトを生成できるテキストから4D生成フレームワークを提案する。 AnimatableDreamerには、CSD(Canonical Score Distillation)と呼ばれる新しい最適化設計が搭載されています。
参考スコア（独自算出の注目度）: 23.967728238723772
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advances in 3D generation have facilitated sequential 3D model generation (a.k.a 4D generation), yet its application for animatable objects with large motion remains scarce. Our work proposes AnimatableDreamer, a text-to-4D generation framework capable of generating diverse categories of non-rigid objects on skeletons extracted from a monocular video. At its core, AnimatableDreamer is equipped with our novel optimization design dubbed Canonical Score Distillation (CSD), which lifts 2D diffusion for temporal consistent 4D generation. CSD, designed from a score gradient perspective, generates a canonical model with warp-robustness across different articulations. Notably, it also enhances the authenticity of bones and skinning by integrating inductive priors from a diffusion model. Furthermore, with multi-view distillation, CSD infers invisible regions, thereby improving the fidelity of monocular non-rigid reconstruction. Extensive experiments demonstrate the capability of our method in generating high-flexibility text-guided 3D models from the monocular video, while also showing improved reconstruction performance over existing non-rigid reconstruction methods.
Abstract（参考訳）: 3D生成の進歩はシーケンシャルな3Dモデル生成を促進する(つまり4D生成)が、大きな動きを持つアニマタブル物体への応用は依然として少ない。本研究は,モノクロビデオから抽出した骨格上の非剛体物体の多様なカテゴリを生成可能なテキストから4D生成フレームワークであるAnimatableDreamerを提案する。 AnimatableDreamerは、CSD(Canonical Score Distillation)と呼ばれる新しい最適化設計を備えています。 CSDはスコア勾配の観点から設計され、異なる調節をまたいだワープ・ロバスト性を持つ標準モデルを生成する。特に、拡散モデルから誘導的前駆体を統合することにより、骨と皮膚の信頼性を高める。さらに, マルチビュー蒸留では, CSDは見えない領域を推測し, 単分子非剛体再構築の忠実度を向上する。モノクロビデオから高柔軟性テキスト誘導型3Dモデルを生成する上で,本手法が有効であることを示すとともに,既存の非剛性再建法よりも再現性が向上したことを示す。

関連論文リスト

AR4D: Autoregressive 4D Generation from Monocular Videos [27.61057927559143]
既存のアプローチは主に、ノベルビューの動画を推測するためにスコア蒸留サンプリングに依存している。 SDSフリー4D生成のための新しいパラダイムであるAR4Dを提案する。我々は,AR4DがSDSを使わずに最先端の4D生成を実現し,多様性の向上,空間的時間的整合性の向上,入力プロンプトとの整合性の向上を実現していることを示す。
論文参考訳（メタデータ） (2025-01-03T09:27:36Z)
Taming Feed-forward Reconstruction Models as Latent Encoders for 3D Generative Models [7.485139478358133]
最近のAIベースの3Dコンテンツ作成は、フィードフォワード画像から3Dへの再構成アプローチと、2Dまたは3D監視でトレーニングされた3D生成モデルという、2つの経路に沿って大きく進化している。本稿では,既存のフィードフォワード再構成手法が3次元生成モデルのトレーニングに有効な潜伏エンコーダとして有効であることを示し,これら2つのパラダイムをブリッジする。
論文参考訳（メタデータ） (2024-12-31T21:23:08Z)
SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency [37.96042037188354]
本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。
論文参考訳（メタデータ） (2024-07-24T17:59:43Z)
4Dynamic: Text-to-4D Generation with Hybrid Priors [56.918589589853184]
本稿では,ビデオによる直接監督によって動的振幅と信頼性を保証し,テキストから4Dへ変換する新しい手法を提案する。本手法は,テキスト・ツー・4D生成だけでなく,モノクロ映像からの4D生成も可能にしている。
論文参考訳（メタデータ） (2024-07-17T16:02:55Z)
EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文参考訳（メタデータ） (2024-05-28T12:47:22Z)
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文参考訳（メタデータ） (2024-05-26T17:47:34Z)
SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。我々の手法は、品質と効率の両面で既存の手法を超越している。動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文参考訳（メタデータ） (2024-04-04T18:05:18Z)
Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。 3次元モデルからの幾何的一貫性と時間的滑らかさに関する知識を精査し、密集した多視点画像を直接サンプリングする。非常にシームレスで一貫した4Dアセットを生成する上で,提案手法の有効性を示す実験を行った。
論文参考訳（メタデータ） (2024-04-02T17:58:03Z)
STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-22T04:16:33Z)
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。 3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文参考訳（メタデータ） (2024-03-18T17:54:34Z)
UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation [101.2317840114147]
We present UniDream, a text-to-3D generation framework by integration priors。提案手法は,(1)アルベド正規配位型多視点拡散・再構成モデルを得るための2相学習プロセス,(2)訓練された再構成・拡散モデルを用いたスコア蒸留サンプル(SDS)に基づく幾何およびアルベドテクスチャのプログレッシブ生成手順,(3)安定拡散モデルに基づく固定アルベドを保ちながらPBR生成を確定するSDSの革新的な応用,の3つからなる。
論文参考訳（メタデータ） (2023-12-14T09:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。