論文の概要: Video4DGen: Enhancing Video and 4D Generation through Mutual Optimization
- arxiv url: http://arxiv.org/abs/2504.04153v1
- Date: Sat, 05 Apr 2025 12:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:09:53.546138
- Title: Video4DGen: Enhancing Video and 4D Generation through Mutual Optimization
- Title(参考訳): Video4DGen: 相互最適化によるビデオと4D生成の強化
- Authors: Yikai Wang, Guangce Liu, Xinzhou Wang, Zilong Chen, Jiafang Li, Xin Liang, Fuchun Sun, Jun Zhu,
- Abstract要約: Video4DGenは、単一または複数の生成されたビデオから4D表現を生成するのに優れている新しいフレームワークである。
Video4DGenは、仮想現実、アニメーションなどにおけるアプリケーションのための強力なツールを提供する。
- 参考スコア(独自算出の注目度): 31.956858341885436
- License:
- Abstract: The advancement of 4D (i.e., sequential 3D) generation opens up new possibilities for lifelike experiences in various applications, where users can explore dynamic objects or characters from any viewpoint. Meanwhile, video generative models are receiving particular attention given their ability to produce realistic and imaginative frames. These models are also observed to exhibit strong 3D consistency, indicating the potential to act as world simulators. In this work, we present Video4DGen, a novel framework that excels in generating 4D representations from single or multiple generated videos as well as generating 4D-guided videos. This framework is pivotal for creating high-fidelity virtual contents that maintain both spatial and temporal coherence. The 4D outputs generated by Video4DGen are represented using our proposed Dynamic Gaussian Surfels (DGS), which optimizes time-varying warping functions to transform Gaussian surfels (surface elements) from a static state to a dynamically warped state. We design warped-state geometric regularization and refinements on Gaussian surfels, to preserve the structural integrity and fine-grained appearance details. To perform 4D generation from multiple videos and capture representation across spatial, temporal, and pose dimensions, we design multi-video alignment, root pose optimization, and pose-guided frame sampling strategies. The leveraging of continuous warping fields also enables a precise depiction of pose, motion, and deformation over per-video frames. Further, to improve the overall fidelity from the observation of all camera poses, Video4DGen performs novel-view video generation guided by the 4D content, with the proposed confidence-filtered DGS to enhance the quality of generated sequences. With the ability of 4D and video generation, Video4DGen offers a powerful tool for applications in virtual reality, animation, and beyond.
- Abstract(参考訳): 4D(シーケンシャル3D)生成の進歩は、ユーザがあらゆる視点から動的オブジェクトや文字を探索できる様々なアプリケーションにおいて、ライフライクな体験の新たな可能性を開く。
一方、ビデオ生成モデルは、現実的で想像力のあるフレームを生成する能力から、特に注目を集めている。
これらのモデルはまた、強力な3D整合性を示し、世界シミュレーターとして機能する可能性を示している。
本研究では,単一または複数生成ビデオから4D表現を生成するのに優れる新しいフレームワークであるVideo4DGenを紹介する。
この枠組みは空間的コヒーレンスと時間的コヒーレンスの両方を維持する高忠実度仮想コンテンツを作成する上で重要である。
The 4D outputs generated by Video4DGen is presented by our proposed Dynamic Gaussian Surfels (DGS) which is presented to improve time-variant warping function to transform Gaussian surfels ( surface element) from a static state to a dynamic warped state。
我々は、構造的整合性ときめ細かな外観の詳細を維持するために、ガウス波上における歪状態の幾何正則化と微細化を設計する。
複数のビデオから4D生成を行い、空間的・時間的・ポーズ次元の表現をキャプチャするために、複数ビデオアライメント、ルートポーズ最適化、ポーズ誘導フレームサンプリング戦略を設計する。
連続的なワープフィールドの活用はまた、ビデオフレームごとのポーズ、動き、変形の正確な描写を可能にする。
さらに、全カメラポーズの観察から全体の忠実度を向上させるために、Video4DGenは、4Dコンテンツでガイドされた新規ビュー映像生成を行い、提案した信頼度フィルタDGSを用いて生成シーケンスの品質を向上させる。
4Dとビデオ生成の能力により、Video4DGenはバーチャルリアリティー、アニメーションなどのアプリケーションに強力なツールを提供する。
関連論文リスト
- 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。
本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。
このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。
特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion [22.11178016375823]
DimensionXは、ビデオ拡散を伴う単一の画像から3Dと4Dのシーンを生成するように設計されたフレームワークである。
提案手法は,3次元シーンの空間構造と4次元シーンの時間的進化の両方が,映像フレームのシーケンスを通して効果的に表現できるという知見から始まった。
論文 参考訳(メタデータ) (2024-11-07T18:07:31Z) - SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency [37.96042037188354]
本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。
論文 参考訳(メタデータ) (2024-07-24T17:59:43Z) - Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels [35.27805034331218]
単一生成ビデオから4D表現を正確に再構成する新しい再構成モデルVidu4Dを提案する。
Vidu4Dのコアとなるのは、提案した動的ガウスサーフェス(DGS)技術である。
論文 参考訳(メタデータ) (2024-05-27T04:43:44Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。
我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。
ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。