論文の概要: 4K4DGen: Panoramic 4D Generation at 4K Resolution
- arxiv url: http://arxiv.org/abs/2406.13527v2
- Date: Thu, 4 Jul 2024 12:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 22:35:04.340550
- Title: 4K4DGen: Panoramic 4D Generation at 4K Resolution
- Title(参考訳): 4K4DGen:4K解像度でパノラマ4D生成
- Authors: Renjie Li, Panwang Pan, Bangbang Yang, Dejia Xu, Shijie Zhou, Xuanyang Zhang, Zeming Li, Achuta Kadambi, Zhangyang Wang, Zhiwen Fan,
- Abstract要約: 本研究では,360度画像に一貫したアニメーション化を実現するために,汎用的な2次元拡散に適応するパノラマデノイザを提案する。
高品質なパノラマから4D生成を(4096$times$2048)初めて達成しました。
- 参考スコア(独自算出の注目度): 66.32782301285256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The blooming of virtual reality and augmented reality (VR/AR) technologies has driven an increasing demand for the creation of high-quality, immersive, and dynamic environments. However, existing generative techniques either focus solely on dynamic objects or perform outpainting from a single perspective image, failing to meet the needs of VR/AR applications. In this work, we tackle the challenging task of elevating a single panorama to an immersive 4D experience. For the first time, we demonstrate the capability to generate omnidirectional dynamic scenes with 360-degree views at 4K resolution, thereby providing an immersive user experience. Our method introduces a pipeline that facilitates natural scene animations and optimizes a set of 4D Gaussians using efficient splatting techniques for real-time exploration. To overcome the lack of scene-scale annotated 4D data and models, especially in panoramic formats, we propose a novel Panoramic Denoiser that adapts generic 2D diffusion priors to animate consistently in 360-degree images, transforming them into panoramic videos with dynamic scenes at targeted regions. Subsequently, we elevate the panoramic video into a 4D immersive environment while preserving spatial and temporal consistency. By transferring prior knowledge from 2D models in the perspective domain to the panoramic domain and the 4D lifting with spatial appearance and geometry regularization, we achieve high-quality Panorama-to-4D generation at a resolution of (4096 $\times$ 2048) for the first time. See the project website at https://4k4dgen.github.io.
- Abstract(参考訳): 仮想現実と拡張現実(VR/AR)技術の興隆により、高品質で没入的でダイナミックな環境の構築に対する需要が高まっている。
しかし、既存の生成技術は、動的オブジェクトのみにフォーカスするか、単一の視点の画像からアウトパインティングを行うかのいずれかであり、VR/ARアプリケーションのニーズを満たしていない。
本研究では,単一パノラマを没入型4D体験に高めるという課題に取り組む。
初めて、4K解像度で360度視野を持つ全方位動的シーンを生成する能力を示し、没入感のあるユーザエクスペリエンスを提供する。
提案手法では,実時間探索のための効率的なスプレイティング手法を用いて,自然シーンのアニメーションを容易にし,4次元ガウスの集合を最適化するパイプラインを提案する。
シーンスケールのアノテートされた4Dデータやモデル,特にパノラマ形式でのパノラマデノイザの欠如を克服するために,360度画像に一貫したアニメーション化に先立って汎用的な2D拡散を適用するパノラマデノイザを提案する。
その後,空間的・時間的整合性を維持しつつ,パノラマ映像を4次元没入環境に高める。
パノラマ領域の2次元モデルからパノラマ領域への事前知識の伝達と空間的外観と幾何正則化による4次元リフトによる4次元リフトの実現により,パノラマから4次元への高品質な生成を初めて達成した(4096$\times$2048)。
プロジェクトのWebサイトはhttps://4k4dgen.github.ioにある。
関連論文リスト
- VividDream: Generating 3D Scene with Ambient Dynamics [13.189732244489225]
一つの入力画像やテキストプロンプトから周囲のダイナミックスを持つ探索可能な4Dシーンを生成する方法であるVividDreamを紹介する。
VividDreamは、さまざまな実画像とテキストプロンプトに基づいて、魅力的な4D体験を提供する。
論文 参考訳(メタデータ) (2024-05-30T17:59:24Z) - GFlow: Recovering 4D World from Monocular Video [58.63051670458107]
GFlowは、ビデオ(3D)を4次元の明示的な表現に持ち上げるフレームワークで、空間と時間を通してガウスのスプラッティングの流れを包含する。
GFlowはまずシーンを静止部分と移動部分にクラスタリングし、逐次最適化プロセスを適用する。
GFlowは、単なる4D再構築の境界を超越する。
論文 参考訳(メタデータ) (2024-05-28T17:59:22Z) - 4D Panoptic Scene Graph Generation [102.22082008976228]
ダイナミックな4次元世界において知覚される生の視覚データをブリッジし,高レベルの視覚的理解を実現する新しい表現である4D Panoptic Scene Graph (PSG-4D)を紹介する。
具体的には、PSG-4Dは、リッチな4D知覚データをノードに抽象化し、正確な位置とステータス情報を持つエンティティとエッジを表現し、時間的関係をキャプチャする。
そこで我々は,PSG4DFormerを提案する。PSG4DFormerはトランスフォーマーベースのモデルで,空間分割マスクを予測し,時間軸に沿ってマスクをトラックし,対応するシーングラフを生成する。
論文 参考訳(メタデータ) (2024-05-16T17:56:55Z) - DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting [56.101576795566324]
テキストから3D 360$circ$のシーン生成パイプラインを提示する。
提案手法は, 2次元拡散モデルの生成力を利用して, 自己複製を促進する。
当社の手法は,360ドル(約3万2000円)の視野内で,グローバルに一貫した3Dシーンを提供する。
論文 参考訳(メタデータ) (2024-04-10T10:46:59Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - 4K4D: Real-Time 4D View Synthesis at 4K Resolution [86.6582179227016]
本稿では、4K解像度で動的3Dシーンを高忠実かつリアルタイムに見ることを目的とする。
ハードウェア化をサポートし,前例のないレンダリング速度を実現する4Dポイントクラウド表現を提案する。
私たちの表現は、1080p解像度のDNAレンダリングデータセットで400 FPS、4090 GPUで4K解像度のENeRF-Outdoorデータセットで80 FPSでレンダリングできます。
論文 参考訳(メタデータ) (2023-10-17T17:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。