論文の概要: 4K4DGen: Panoramic 4D Generation at 4K Resolution
- arxiv url: http://arxiv.org/abs/2406.13527v3
- Date: Thu, 03 Oct 2024 06:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:29:35.389770
- Title: 4K4DGen: Panoramic 4D Generation at 4K Resolution
- Title(参考訳): 4K4DGen:4K解像度でパノラマ4D生成
- Authors: Renjie Li, Panwang Pan, Bangbang Yang, Dejia Xu, Shijie Zhou, Xuanyang Zhang, Zeming Li, Achuta Kadambi, Zhangyang Wang, Zhengzhong Tu, Zhiwen Fan,
- Abstract要約: 一つのパノラマを没入的な4D体験に高めるという課題に取り組む。
初めて、4K解像度で360$circ$のビューで全方位動的シーンを生成する能力を実証した。
高品質なパノラマ・ト・4Dを4Kの解像度で初めて実現した。
- 参考スコア(独自算出の注目度): 67.98105958108503
- License:
- Abstract: The blooming of virtual reality and augmented reality (VR/AR) technologies has driven an increasing demand for the creation of high-quality, immersive, and dynamic environments. However, existing generative techniques either focus solely on dynamic objects or perform outpainting from a single perspective image, failing to meet the requirements of VR/AR applications that need free-viewpoint, 360$^{\circ}$ virtual views where users can move in all directions. In this work, we tackle the challenging task of elevating a single panorama to an immersive 4D experience. For the first time, we demonstrate the capability to generate omnidirectional dynamic scenes with 360$^{\circ}$ views at 4K (4096 $\times$ 2048) resolution, thereby providing an immersive user experience. Our method introduces a pipeline that facilitates natural scene animations and optimizes a set of dynamic Gaussians using efficient splatting techniques for real-time exploration. To overcome the lack of scene-scale annotated 4D data and models, especially in panoramic formats, we propose a novel \textbf{Panoramic Denoiser} that adapts generic 2D diffusion priors to animate consistently in 360$^{\circ}$ images, transforming them into panoramic videos with dynamic scenes at targeted regions. Subsequently, we propose \textbf{Dynamic Panoramic Lifting} to elevate the panoramic video into a 4D immersive environment while preserving spatial and temporal consistency. By transferring prior knowledge from 2D models in the perspective domain to the panoramic domain and the 4D lifting with spatial appearance and geometry regularization, we achieve high-quality Panorama-to-4D generation at a resolution of 4K for the first time.
- Abstract(参考訳): 仮想現実と拡張現実(VR/AR)技術の興隆により、高品質で没入的でダイナミックな環境の構築に対する需要が高まっている。
しかし、既存の生成技術は、動的オブジェクトのみにフォーカスするか、単一の視点からアウトパインティングを行うかのいずれかであり、ユーザーがあらゆる方向に移動できる360$^{\circ}$仮想ビューを必要とするVR/ARアプリケーションの要件を満たしていない。
本研究では,単一パノラマを没入型4D体験に高めるという課題に取り組む。
初めて,360$^{\circ}$ビューを4K(4096$\times$2048)解像度で生成し,没入感のあるユーザエクスペリエンスを提供する。
提案手法では,リアルタイム探索のための効率的なスプレイティング手法を用いて,自然シーンのアニメーションを容易にし,動的ガウスの集合を最適化するパイプラインを提案する。
シーンスケールのアノテートされた4Dデータやモデル,特にパノラマ形式でのパノラマフォーマットの欠如を克服するため,360$^{\circ}$イメージで一貫したアニメーション化に先立って,汎用的な2D拡散に適応し,対象領域のダイナミックなシーンでパノラマビデオに変換する,新しい「textbf{Panoramic Denoiser}」を提案する。
次に,空間的・時間的整合性を維持しつつ,パノラマ映像を4次元没入環境に高めることを目的とした「textbf{Dynamic Panoramic Lifting」を提案する。
パノラマ領域の2次元モデルからパノラマ領域への事前知識の伝達と空間的外観と幾何学的正則化による4次元リフトングにより,初めて4Kの解像度で高品質なパノラマから4次元生成を実現する。
関連論文リスト
- VividDream: Generating 3D Scene with Ambient Dynamics [13.189732244489225]
一つの入力画像やテキストプロンプトから周囲のダイナミックスを持つ探索可能な4Dシーンを生成する方法であるVividDreamを紹介する。
VividDreamは、さまざまな実画像とテキストプロンプトに基づいて、魅力的な4D体験を提供する。
論文 参考訳(メタデータ) (2024-05-30T17:59:24Z) - GFlow: Recovering 4D World from Monocular Video [58.63051670458107]
GFlowは、ビデオ(3D)を4次元の明示的な表現に持ち上げるフレームワークで、空間と時間を通してガウスのスプラッティングの流れを包含する。
GFlowはまずシーンを静止部分と移動部分にクラスタリングし、逐次最適化プロセスを適用する。
GFlowは、単なる4D再構築の境界を超越する。
論文 参考訳(メタデータ) (2024-05-28T17:59:22Z) - 4D Panoptic Scene Graph Generation [102.22082008976228]
ダイナミックな4次元世界において知覚される生の視覚データをブリッジし,高レベルの視覚的理解を実現する新しい表現である4D Panoptic Scene Graph (PSG-4D)を紹介する。
具体的には、PSG-4Dは、リッチな4D知覚データをノードに抽象化し、正確な位置とステータス情報を持つエンティティとエッジを表現し、時間的関係をキャプチャする。
そこで我々は,PSG4DFormerを提案する。PSG4DFormerはトランスフォーマーベースのモデルで,空間分割マスクを予測し,時間軸に沿ってマスクをトラックし,対応するシーングラフを生成する。
論文 参考訳(メタデータ) (2024-05-16T17:56:55Z) - DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting [56.101576795566324]
テキストから3D 360$circ$のシーン生成パイプラインを提示する。
提案手法は, 2次元拡散モデルの生成力を利用して, 自己複製を促進する。
当社の手法は,360ドル(約3万2000円)の視野内で,グローバルに一貫した3Dシーンを提供する。
論文 参考訳(メタデータ) (2024-04-10T10:46:59Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。