論文の概要: SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer
- arxiv url: http://arxiv.org/abs/2404.03736v1
- Date: Thu, 4 Apr 2024 18:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 17:35:40.881632
- Title: SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer
- Title(参考訳): SC4D:Sparse-Controlled Video-to-4D Generation and Motion Transfer
- Authors: Zijie Wu, Chaohui Yu, Yanqin Jiang, Chenjie Cao, Fan Wang, Xiang Bai,
- Abstract要約: 動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
- 参考スコア(独自算出の注目度): 57.506654943449796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in 2D/3D generative models enable the generation of dynamic 3D objects from a single-view video. Existing approaches utilize score distillation sampling to form the dynamic scene as dynamic NeRF or dense 3D Gaussians. However, these methods struggle to strike a balance among reference view alignment, spatio-temporal consistency, and motion fidelity under single-view conditions due to the implicit nature of NeRF or the intricate dense Gaussian motion prediction. To address these issues, this paper proposes an efficient, sparse-controlled video-to-4D framework named SC4D, that decouples motion and appearance to achieve superior video-to-4D generation. Moreover, we introduce Adaptive Gaussian (AG) initialization and Gaussian Alignment (GA) loss to mitigate shape degeneration issue, ensuring the fidelity of the learned motion and shape. Comprehensive experimental results demonstrate that our method surpasses existing methods in both quality and efficiency. In addition, facilitated by the disentangled modeling of motion and appearance of SC4D, we devise a novel application that seamlessly transfers the learned motion onto a diverse array of 4D entities according to textual descriptions.
- Abstract(参考訳): 2D/3D生成モデルの最近の進歩により、シングルビュービデオから動的3Dオブジェクトを生成することができる。
既存のアプローチでは、スコア蒸留サンプリングを使用してダイナミックなNeRFや密度の高い3Dガウスとして動的シーンを形成する。
しかし、これらの手法は、NeRFの暗黙的な性質や複雑な高密度ガウス運動予測のため、単一視点条件下での参照ビューアライメント、時空間整合性、動きの忠実さのバランスをとるのに苦労する。
これらの課題に対処するため, SC4D という高効率でスパース制御されたビデオ・トゥ・4D フレームワークを提案し, 映像・4D 生成に優れる動作と外観を分離する。
さらに,適応ガウス初期化(AG)とガウスアライメント(GA)の損失を導入し,形状劣化問題を緩和し,学習運動と形状の忠実性を確保する。
総合的な実験結果から,本手法は品質と効率の両面で既存手法を超越していることが明らかとなった。
さらに、SC4Dの動作と外観の非絡み合いモデリングにより、テキストによる記述に基づき、学習した動作を多種多様な4Dエンティティにシームレスに転送するアプリケーションを考案した。
関連論文リスト
- S4D: Streaming 4D Real-World Reconstruction with Gaussians and 3D Control Points [30.46796069720543]
本稿では,離散的な3次元制御点を用いた4次元実世界の再構成をストリーミングする手法を提案する。
この方法は局所光を物理的にモデル化し、運動デカップリング座標系を確立する。
従来のグラフィックスと学習可能なパイプラインを効果的にマージすることにより、堅牢で効率的なローカルな6自由度(6自由度)モーション表現を提供する。
論文 参考訳(メタデータ) (2024-08-23T12:51:49Z) - 4Dynamic: Text-to-4D Generation with Hybrid Priors [56.918589589853184]
本稿では,ビデオによる直接監督によって動的振幅と信頼性を保証し,テキストから4Dへ変換する新しい手法を提案する。
本手法は,テキスト・ツー・4D生成だけでなく,モノクロ映像からの4D生成も可能にしている。
論文 参考訳(メタデータ) (2024-07-17T16:02:55Z) - EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - Sync4D: Video Guided Controllable Dynamics for Physics-Based 4D Generation [47.203483017875726]
そこで我々は, カジュアルにキャプチャした参照ビデオを用いて, 3次元ガウシアンにおける制御可能なダイナミックスを作成する新しい手法を提案する。
提案手法は,参照ビデオから様々なカテゴリで生成された様々な3Dガウスにオブジェクトの動きを転送する。
本手法は, 形状整合性と時間的整合性の両方を維持しながら, 特異かつ高品質な運動伝達を提供する。
論文 参考訳(メタデータ) (2024-05-27T05:49:12Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。
我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。
ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。