論文の概要: AR4D: Autoregressive 4D Generation from Monocular Videos
- arxiv url: http://arxiv.org/abs/2501.01722v1
- Date: Fri, 03 Jan 2025 09:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:11:36.406528
- Title: AR4D: Autoregressive 4D Generation from Monocular Videos
- Title(参考訳): AR4D:モノクロビデオから自動回帰4D生成
- Authors: Hanxin Zhu, Tianyu He, Xiqian Yu, Junliang Guo, Zhibo Chen, Jiang Bian,
- Abstract要約: 既存のアプローチは主に、ノベルビューの動画を推測するためにスコア蒸留サンプリングに依存している。
SDSフリー4D生成のための新しいパラダイムであるAR4Dを提案する。
我々は,AR4DがSDSを使わずに最先端の4D生成を実現し,多様性の向上,空間的時間的整合性の向上,入力プロンプトとの整合性の向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 27.61057927559143
- License:
- Abstract: Recent advancements in generative models have ignited substantial interest in dynamic 3D content creation (\ie, 4D generation). Existing approaches primarily rely on Score Distillation Sampling (SDS) to infer novel-view videos, typically leading to issues such as limited diversity, spatial-temporal inconsistency and poor prompt alignment, due to the inherent randomness of SDS. To tackle these problems, we propose AR4D, a novel paradigm for SDS-free 4D generation. Specifically, our paradigm consists of three stages. To begin with, for a monocular video that is either generated or captured, we first utilize pre-trained expert models to create a 3D representation of the first frame, which is further fine-tuned to serve as the canonical space. Subsequently, motivated by the fact that videos happen naturally in an autoregressive manner, we propose to generate each frame's 3D representation based on its previous frame's representation, as this autoregressive generation manner can facilitate more accurate geometry and motion estimation. Meanwhile, to prevent overfitting during this process, we introduce a progressive view sampling strategy, utilizing priors from pre-trained large-scale 3D reconstruction models. To avoid appearance drift introduced by autoregressive generation, we further incorporate a refinement stage based on a global deformation field and the geometry of each frame's 3D representation. Extensive experiments have demonstrated that AR4D can achieve state-of-the-art 4D generation without SDS, delivering greater diversity, improved spatial-temporal consistency, and better alignment with input prompts.
- Abstract(参考訳): 生成モデルの最近の進歩は、動的3Dコンテンツ生成(4D世代)に大きな関心を抱いている。
既存のアプローチは主にSDS (Score Distillation Sampling) に依存しており、通常、SDSの固有のランダム性のため、多様性の制限、空間的不整合、即時アライメントの低さといった問題に繋がる。
これらの問題に対処するために,SDSフリー4D生成のための新しいパラダイムであるAR4Dを提案する。
具体的には、我々のパラダイムは3つの段階から構成される。
まず、生成またはキャプチャされた単眼ビデオについて、まず事前訓練されたエキスパートモデルを用いて、第1フレームの3次元表現を作成し、さらに細調整して標準空間として機能させる。
その後、ビデオが自然に自己回帰的に発生することを動機として、この自己回帰生成方式によりより正確な形状や動きの推定が容易になるため、従来のフレームの表現に基づいて各フレームの3次元表現を生成することを提案する。
一方, このプロセスにおける過度な適合を防止するため, 事前学習した大規模3次元再構成モデルの事前評価を利用して, プログレッシブ・ビュー・サンプリング・ストラテジーを導入する。
自己回帰生成によって生じる外観のドリフトを回避するため、大域的変形場と各フレームの3次元表現の幾何学に基づく精細化段階を更に取り入れる。
大規模な実験により、AR4DはSDSを使わずに最先端の4D生成を達成でき、多様性の向上、空間的時間的一貫性の向上、入力プロンプトとの整合性の向上が示されている。
関連論文リスト
- 4Dynamic: Text-to-4D Generation with Hybrid Priors [56.918589589853184]
本稿では,ビデオによる直接監督によって動的振幅と信頼性を保証し,テキストから4Dへ変換する新しい手法を提案する。
本手法は,テキスト・ツー・4D生成だけでなく,モノクロ映像からの4D生成も可能にしている。
論文 参考訳(メタデータ) (2024-07-17T16:02:55Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。
提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:16:33Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。
我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。
ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。