論文の概要: SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer
- arxiv url: http://arxiv.org/abs/2404.03736v1
- Date: Thu, 4 Apr 2024 18:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 17:35:40.881632
- Title: SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer
- Title(参考訳): SC4D:Sparse-Controlled Video-to-4D Generation and Motion Transfer
- Authors: Zijie Wu, Chaohui Yu, Yanqin Jiang, Chenjie Cao, Fan Wang, Xiang Bai,
- Abstract要約: 動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
- 参考スコア(独自算出の注目度): 57.506654943449796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in 2D/3D generative models enable the generation of dynamic 3D objects from a single-view video. Existing approaches utilize score distillation sampling to form the dynamic scene as dynamic NeRF or dense 3D Gaussians. However, these methods struggle to strike a balance among reference view alignment, spatio-temporal consistency, and motion fidelity under single-view conditions due to the implicit nature of NeRF or the intricate dense Gaussian motion prediction. To address these issues, this paper proposes an efficient, sparse-controlled video-to-4D framework named SC4D, that decouples motion and appearance to achieve superior video-to-4D generation. Moreover, we introduce Adaptive Gaussian (AG) initialization and Gaussian Alignment (GA) loss to mitigate shape degeneration issue, ensuring the fidelity of the learned motion and shape. Comprehensive experimental results demonstrate that our method surpasses existing methods in both quality and efficiency. In addition, facilitated by the disentangled modeling of motion and appearance of SC4D, we devise a novel application that seamlessly transfers the learned motion onto a diverse array of 4D entities according to textual descriptions.
- Abstract(参考訳): 2D/3D生成モデルの最近の進歩により、シングルビュービデオから動的3Dオブジェクトを生成することができる。
既存のアプローチでは、スコア蒸留サンプリングを使用してダイナミックなNeRFや密度の高い3Dガウスとして動的シーンを形成する。
しかし、これらの手法は、NeRFの暗黙的な性質や複雑な高密度ガウス運動予測のため、単一視点条件下での参照ビューアライメント、時空間整合性、動きの忠実さのバランスをとるのに苦労する。
これらの課題に対処するため, SC4D という高効率でスパース制御されたビデオ・トゥ・4D フレームワークを提案し, 映像・4D 生成に優れる動作と外観を分離する。
さらに,適応ガウス初期化(AG)とガウスアライメント(GA)の損失を導入し,形状劣化問題を緩和し,学習運動と形状の忠実性を確保する。
総合的な実験結果から,本手法は品質と効率の両面で既存手法を超越していることが明らかとなった。
さらに、SC4Dの動作と外観の非絡み合いモデリングにより、テキストによる記述に基づき、学習した動作を多種多様な4Dエンティティにシームレスに転送するアプリケーションを考案した。
関連論文リスト
- TC4D: Trajectory-Conditioned Text-to-4D Generation [98.2505675929786]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。
提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:16:33Z) - GaussianFlow: Splatting Gaussian Dynamics for 4D Content Creation [28.780488884938997]
連続するフレーム間の3次元ガウス流と画素速度のダイナミクスを結合する新しい概念であるガウス流を導入する。
提案手法は,ガウススプラッティングを用いた4次元動的コンテンツ生成と4次元新規ビュー合成に有効である。
提案手法は, 4次元生成と4次元新規ビュー合成の両課題に対して, 最先端の成果を得る。
論文 参考訳(メタデータ) (2024-03-19T02:22:21Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [59.32318797882129]
本研究では,4次元ガウス分割表現に基づく効率的な4次元生成フレームワークであるDreamGaussian4Dを紹介する。
我々の重要な洞察は、ガウススプラッティングにおける空間変換の明示的なモデリングが、4次元生成設定により適しているということである。
DreamGaussian4Dは最適化時間を数時間から数分に短縮し、生成された3Dモーションの柔軟な制御を可能にし、3Dエンジンで効率的にレンダリングできるアニメーションメッシュを生成する。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - A Unified Approach for Text- and Image-guided 4D Scene Generation [58.658768832653834]
本研究では,テキストから4Dへの新たな2段階合成手法であるDream-in-4Dを提案する。
提案手法は,画像の画質,3次元整合性,テキスト・ツー・4次元生成におけるテキストの忠実度を著しく向上することを示す。
本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一されたアプローチを提供する。
論文 参考訳(メタデータ) (2023-11-28T15:03:53Z) - Consistent4D: Consistent 360{\deg} Dynamic Object Generation from
Monocular Video [15.621374353364468]
Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。
我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
論文 参考訳(メタデータ) (2023-11-06T03:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。