論文の概要: HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation
- arxiv url: http://arxiv.org/abs/2504.21650v1
- Date: Wed, 30 Apr 2025 13:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 18:30:26.788606
- Title: HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation
- Title(参考訳): ホロタイム:パノラマ4Dシーン生成のためのビデオ拡散モデル
- Authors: Haiyang Zhou, Wangbo Yu, Jiawen Guan, Xinhua Cheng, Yonghong Tian, Li Yuan,
- Abstract要約: HoloTimeは、ビデオ拡散モデルを統合して、単一のプロンプトまたは参照イメージからパノラマビデオを生成するフレームワークである。
360Worldデータセットは、下流の4Dシーン再構築タスクに適したパノラマビデオの包括的なコレクションである。
パノラマアニメーションは、パノラマ画像を高品質のパノラマビデオに変換する2段階のイメージ・ツー・ビデオ拡散モデルである。
パノラマ空間時間再構成は、空間時間深度推定法を用いて、生成されたパノラマ映像を4次元の点雲に変換する。
- 参考スコア(独自算出の注目度): 29.579493980120173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of diffusion models holds the promise of revolutionizing the application of VR and AR technologies, which typically require scene-level 4D assets for user experience. Nonetheless, existing diffusion models predominantly concentrate on modeling static 3D scenes or object-level dynamics, constraining their capacity to provide truly immersive experiences. To address this issue, we propose HoloTime, a framework that integrates video diffusion models to generate panoramic videos from a single prompt or reference image, along with a 360-degree 4D scene reconstruction method that seamlessly transforms the generated panoramic video into 4D assets, enabling a fully immersive 4D experience for users. Specifically, to tame video diffusion models for generating high-fidelity panoramic videos, we introduce the 360World dataset, the first comprehensive collection of panoramic videos suitable for downstream 4D scene reconstruction tasks. With this curated dataset, we propose Panoramic Animator, a two-stage image-to-video diffusion model that can convert panoramic images into high-quality panoramic videos. Following this, we present Panoramic Space-Time Reconstruction, which leverages a space-time depth estimation method to transform the generated panoramic videos into 4D point clouds, enabling the optimization of a holistic 4D Gaussian Splatting representation to reconstruct spatially and temporally consistent 4D scenes. To validate the efficacy of our method, we conducted a comparative analysis with existing approaches, revealing its superiority in both panoramic video generation and 4D scene reconstruction. This demonstrates our method's capability to create more engaging and realistic immersive environments, thereby enhancing user experiences in VR and AR applications.
- Abstract(参考訳): 拡散モデルの急速な進歩は、通常ユーザー体験のためにシーンレベルの4Dアセットを必要とするVRとAR技術の応用に革命をもたらすという約束を掲げている。
それでも、既存の拡散モデルは、静的な3Dシーンやオブジェクトレベルのダイナミクスをモデリングすることに集中しており、真の没入感を提供する能力を制限する。
この問題を解決するために,ビデオ拡散モデルを統合して単一のプロンプトや参照画像からパノラマ映像を生成するフレームワークであるHoloTimeと,生成されたパノラマ映像をシームレスに4Dアセットに変換する360度4Dシーン再構築手法を提案する。
具体的には、高忠実度パノラマ映像を生成するためのビデオ拡散モデルを作成するために、下流4Dシーン再構築作業に適したパノラマ映像の包括的収集である360Worldデータセットを導入する。
本研究では,パノラマ画像を高品質なパノラマ映像に変換する2段階画像拡散モデルであるパノラマアニメーションを提案する。
次に,空間的および時間的整合性のある4Dシーンを再構成するために,パノラマ映像を4次元点雲に変換するために空間時間深度推定法を利用するパノラマ時空間再構成法を提案する。
提案手法の有効性を検証するため,パノラマ映像生成と4次元シーン再構成の両方において,既存の手法との比較分析を行った。
これにより,VRおよびARアプリケーションにおけるユーザエクスペリエンスを向上させるため,より魅力的で現実的な没入型環境を構築することができる。
関連論文リスト
- Video4DGen: Enhancing Video and 4D Generation through Mutual Optimization [31.956858341885436]
Video4DGenは、単一または複数の生成されたビデオから4D表現を生成するのに優れている新しいフレームワークである。
Video4DGenは、仮想現実、アニメーションなどにおけるアプリケーションのための強力なツールを提供する。
論文 参考訳(メタデータ) (2025-04-05T12:13:05Z) - Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model [52.0192865857058]
そこで,本研究では,市販ビデオ拡散モデルを利用して,単一入力ビデオから多視点ビデオを生成する4Dビデオ生成手法を提案する。
本手法はトレーニング不要で,市販のビデオ拡散モデルを完全に活用し,マルチビュービデオ生成のための実用的で効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-03-28T17:14:48Z) - Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。
実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-27T01:44:46Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。
プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。
我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。
新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文 参考訳(メタデータ) (2024-11-27T18:57:16Z) - DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion [22.11178016375823]
DimensionXは、ビデオ拡散を伴う単一の画像から3Dと4Dのシーンを生成するように設計されたフレームワークである。
提案手法は,3次元シーンの空間構造と4次元シーンの時間的進化の両方が,映像フレームのシーケンスを通して効果的に表現できるという知見から始まった。
論文 参考訳(メタデータ) (2024-11-07T18:07:31Z) - 4K4DGen: Panoramic 4D Generation at 4K Resolution [67.98105958108503]
一つのパノラマを没入的な4D体験に高めるという課題に取り組む。
初めて、4K解像度で360$circ$のビューで全方位動的シーンを生成する能力を実証した。
高品質なパノラマ・ト・4Dを4Kの解像度で初めて実現した。
論文 参考訳(メタデータ) (2024-06-19T13:11:02Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。