論文の概要: Scene4U: Hierarchical Layered 3D Scene Reconstruction from Single Panoramic Image for Your Immerse Exploration
- arxiv url: http://arxiv.org/abs/2504.00387v1
- Date: Tue, 01 Apr 2025 03:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:12.264530
- Title: Scene4U: Hierarchical Layered 3D Scene Reconstruction from Single Panoramic Image for Your Immerse Exploration
- Title(参考訳): Scene4U:1枚のパノラマ画像からの階層的な3Dシーンの再構築
- Authors: Zilong Huang, Jun He, Junyan Ye, Lihan Jiang, Weijia Li, Yiping Chen, Ting Han,
- Abstract要約: 本研究では,パノラマ画像を用いた新しい3次元シーン再構築フレームワークScene4Uを提案する。
具体的には、Scene4Uはオープン語彙セグメンテーションモデルと大きな言語モデルを統合して、実際のパノラマを複数の層に分解する。
次に、拡散モデルに基づく階層化された修復モジュールを用いて、視覚的手がかりと深度情報を用いて隠蔽領域を復元し、シーンの階層的表現を生成する。
Scene4Uは最先端の手法より優れ、LPIPSでは24.24%、BRISQUEでは24.40%向上し、訓練速度も最速となった。
- 参考スコア(独自算出の注目度): 18.23983135970619
- License:
- Abstract: The reconstruction of immersive and realistic 3D scenes holds significant practical importance in various fields of computer vision and computer graphics. Typically, immersive and realistic scenes should be free from obstructions by dynamic objects, maintain global texture consistency, and allow for unrestricted exploration. The current mainstream methods for image-driven scene construction involves iteratively refining the initial image using a moving virtual camera to generate the scene. However, previous methods struggle with visual discontinuities due to global texture inconsistencies under varying camera poses, and they frequently exhibit scene voids caused by foreground-background occlusions. To this end, we propose a novel layered 3D scene reconstruction framework from panoramic image, named Scene4U. Specifically, Scene4U integrates an open-vocabulary segmentation model with a large language model to decompose a real panorama into multiple layers. Then, we employs a layered repair module based on diffusion model to restore occluded regions using visual cues and depth information, generating a hierarchical representation of the scene. The multi-layer panorama is then initialized as a 3D Gaussian Splatting representation, followed by layered optimization, which ultimately produces an immersive 3D scene with semantic and structural consistency that supports free exploration. Scene4U outperforms state-of-the-art method, improving by 24.24% in LPIPS and 24.40% in BRISQUE, while also achieving the fastest training speed. Additionally, to demonstrate the robustness of Scene4U and allow users to experience immersive scenes from various landmarks, we build WorldVista3D dataset for 3D scene reconstruction, which contains panoramic images of globally renowned sites. The implementation code and dataset will be released at https://github.com/LongHZ140516/Scene4U .
- Abstract(参考訳): 没入的でリアルな3Dシーンの再構築は、コンピュータビジョンやコンピュータグラフィックスの様々な分野において重要な実践的重要性を持っている。
通常、没入的で現実的なシーンは、動的な物体による妨害から解放され、グローバルなテクスチャの整合性を維持し、無制限な探索を可能にするべきである。
画像駆動シーン構築の現在の主流の方法は、動いた仮想カメラを使用して初期画像を反復的に精細化し、シーンを生成することである。
しかし, カメラポーズの違いによる世界的テクスチャの不整合により, 従来手法では視覚的不連続性に悩まされ, 前景・後景の閉塞によるシーンヴォイドが頻繁に現れる。
そこで本研究では,Scene4Uというパノラマ画像を用いた3次元シーン再構築フレームワークを提案する。
具体的には、Scene4Uはオープン語彙セグメンテーションモデルと大きな言語モデルを統合して、実際のパノラマを複数の層に分解する。
次に,拡散モデルに基づく階層化された修復モジュールを用いて,視覚的手がかりと深度情報を用いて隠蔽領域を復元し,シーンの階層的表現を生成する。
マルチレイヤパノラマは3Dガウススプティング表現として初期化され、その後に階層化された最適化が続き、最終的には意味的および構造的整合性を持った没入型3Dシーンが生成され、自由探索をサポートする。
Scene4Uは最先端の手法より優れ、LPIPSでは24.24%、BRISQUEでは24.40%向上し、訓練速度も最速となった。
さらに、Scene4Uの堅牢性を実証し、ユーザが様々なランドマークから没入的なシーンを体験できるようにするために、世界的名所のパノラマ画像を含む3Dシーン再構築のためのWorldVista3Dデータセットを構築した。
実装コードとデータセットはhttps://github.com/LongHZ140516/Scene4Uでリリースされる。
関連論文リスト
- PaintScene4D: Consistent 4D Scene Generation from Text Prompts [29.075849524496707]
PaintScene4Dは、新しいテキストから4Dのシーン生成フレームワークである。
さまざまな現実世界のデータセットでトレーニングされたビデオ生成モデルを活用する。
任意の軌道から見ることができるリアルな4Dシーンを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:59:57Z) - SceneCraft: Layout-Guided 3D Scene Generation [29.713491313796084]
シーンクラフト(SceneCraft)は、テキスト記述や空間的レイアウトの好みに則った、室内の詳細なシーンを生成する新しい方法である。
本手法は,多様なテクスチャ,一貫した幾何,現実的な視覚的品質を有する複雑な屋内シーン生成において,既存のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2024-10-11T17:59:58Z) - LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation [105.52153675890408]
3D没入型シーン生成はコンピュータビジョンとグラフィックスにおいて難しいが重要な課題である。
Layerpano3Dは、単一のテキストプロンプトからフルビューで探索可能なパノラマ3Dシーンを生成するための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-08-23T17:50:23Z) - HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions [31.342899807980654]
3Dシーン生成は、仮想現実、ゲーム、映画産業など、さまざまな領域で高い需要がある。
フル3Dシーンの全体的初期化として,最初に高精細パノラマを生成するフレームワークであるHoloDreamerを紹介する。
そして、3Dガウススティング(3D-GS)を活用して3Dシーンを迅速に再構築し、ビュー一貫性と完全に囲まれた3Dシーンの作成を容易にする。
論文 参考訳(メタデータ) (2024-07-21T14:52:51Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - UE4-NeRF:Neural Radiance Field for Real-Time Rendering of Large-Scale
Scene [52.21184153832739]
本研究では,大規模シーンのリアルタイムレンダリングに特化して設計されたUE4-NeRFと呼ばれるニューラルレンダリングシステムを提案する。
提案手法は,Unreal Engine 4 (UE4)のUnrealization Pipelineと組み合わせて,最大43FPSのフレームレートで4K解像度で大規模シーンのリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2023-10-20T04:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。