論文の概要: TiP4GEN: Text to Immersive Panorama 4D Scene Generation
- arxiv url: http://arxiv.org/abs/2508.12415v1
- Date: Sun, 17 Aug 2025 16:02:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.757479
- Title: TiP4GEN: Text to Immersive Panorama 4D Scene Generation
- Title(参考訳): TiP4GEN:パノラマ4Dシーン生成用テキスト
- Authors: Ke Xing, Hanwen Liang, Dejia Xu, Yuyang Yin, Konstantinos N. Plataniotis, Yao Zhao, Yunchao Wei,
- Abstract要約: TiP4GENはテキストから動的パノラマシーン生成フレームワークである。
微粒なコンテンツ制御を可能にし、動きに富んだ幾何学的なパノラマ4Dシーンを合成する。
TiP4GENはパノラマビデオ生成と動的シーン再構成を統合し、360度没入型仮想環境を作成する。
- 参考スコア(独自算出の注目度): 82.8444414014506
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: With the rapid advancement and widespread adoption of VR/AR technologies, there is a growing demand for the creation of high-quality, immersive dynamic scenes. However, existing generation works predominantly concentrate on the creation of static scenes or narrow perspective-view dynamic scenes, falling short of delivering a truly 360-degree immersive experience from any viewpoint. In this paper, we introduce \textbf{TiP4GEN}, an advanced text-to-dynamic panorama scene generation framework that enables fine-grained content control and synthesizes motion-rich, geometry-consistent panoramic 4D scenes. TiP4GEN integrates panorama video generation and dynamic scene reconstruction to create 360-degree immersive virtual environments. For video generation, we introduce a \textbf{Dual-branch Generation Model} consisting of a panorama branch and a perspective branch, responsible for global and local view generation, respectively. A bidirectional cross-attention mechanism facilitates comprehensive information exchange between the branches. For scene reconstruction, we propose a \textbf{Geometry-aligned Reconstruction Model} based on 3D Gaussian Splatting. By aligning spatial-temporal point clouds using metric depth maps and initializing scene cameras with estimated poses, our method ensures geometric consistency and temporal coherence for the reconstructed scenes. Extensive experiments demonstrate the effectiveness of our proposed designs and the superiority of TiP4GEN in generating visually compelling and motion-coherent dynamic panoramic scenes. Our project page is at https://ke-xing.github.io/TiP4GEN/.
- Abstract(参考訳): VR/AR技術の急速な進歩と普及に伴い、高品質で没入的なダイナミックなシーンの創出に対する需要が高まっている。
しかし、既存の世代の作品は主に静的なシーンや狭い視点のダイナミックなシーンの作成に集中しており、あらゆる視点から真の360度没入体験を提供するには不足している。
本稿では,テキストから動的パノラマシーンを生成する高度なフレームワークである \textbf{TiP4GEN} について紹介する。
TiP4GENはパノラマビデオ生成と動的シーン再構成を統合し、360度没入型仮想環境を作成する。
ビデオ生成には,パノラマ枝と視点枝から構成される「textbf{Dual-branch Generation Model」を導入する。
双方向のクロスアテンション機構は、枝間の包括的な情報交換を容易にする。
シーン再構築のために,3次元ガウススプラッティングに基づく「textbf{Geometry-aligned reconstruction model」を提案する。
距離深度マップを用いた時空間点雲の整列と推定ポーズによるシーンカメラの初期化により,再構成されたシーンの幾何的一貫性と時間的コヒーレンスを確保する。
広汎な実験により,提案設計の有効性とTiP4GENの視覚的説得力および運動コヒーレントなパノラマシーン生成における優位性を実証した。
私たちのプロジェクトページはhttps://ke-xing.github.io/TiP4GEN/です。
関連論文リスト
- Scene4U: Hierarchical Layered 3D Scene Reconstruction from Single Panoramic Image for Your Immerse Exploration [18.23983135970619]
本研究では,パノラマ画像を用いた新しい3次元シーン再構築フレームワークScene4Uを提案する。
具体的には、Scene4Uはオープン語彙セグメンテーションモデルと大きな言語モデルを統合して、実際のパノラマを複数の層に分解する。
次に、拡散モデルに基づく階層化された修復モジュールを用いて、視覚的手がかりと深度情報を用いて隠蔽領域を復元し、シーンの階層的表現を生成する。
Scene4Uは最先端の手法より優れ、LPIPSでは24.24%、BRISQUEでは24.40%向上し、訓練速度も最速となった。
論文 参考訳(メタデータ) (2025-04-01T03:17:24Z) - SceneDreamer360: Text-Driven 3D-Consistent Scene Generation with Panoramic Gaussian Splatting [53.32467009064287]
テキスト駆動型3D一貫性シーン生成モデルSceneDreamer360を提案する。
提案手法は,テキスト駆動パノラマ画像生成モデルを3次元シーン生成の先行モデルとして活用する。
SceneDreamer360はそのパノラマ画像生成と3DGSにより、より高品質で空間的に整合性があり、視覚的に魅力的な3Dシーンを任意のテキストプロンプトから生成できることを示した。
論文 参考訳(メタデータ) (2024-08-25T02:56:26Z) - 4K4DGen: Panoramic 4D Generation at 4K Resolution [67.98105958108503]
一つのパノラマを没入的な4D体験に高めるという課題に取り組む。
初めて、4K解像度で360$circ$のビューで全方位動的シーンを生成する能力を実証した。
高品質なパノラマ・ト・4Dを4Kの解像度で初めて実現した。
論文 参考訳(メタデータ) (2024-06-19T13:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。