論文の概要: FastScene: Text-Driven Fast 3D Indoor Scene Generation via Panoramic Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2405.05768v1
- Date: Thu, 9 May 2024 13:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 13:23:01.080543
- Title: FastScene: Text-Driven Fast 3D Indoor Scene Generation via Panoramic Gaussian Splatting
- Title(参考訳): FastScene:パノラマガウス法によるテキスト駆動型高速3D室内シーン生成
- Authors: Yikun Ma, Dandan Zhan, Zhi Jin,
- Abstract要約: 高速かつ高品質な3Dシーン生成のためのフレームワークであるFastSceneを提案する。
FastSceneは15分以内に3Dシーンを生成することができる。
- 参考スコア(独自算出の注目度): 15.648080938815879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven 3D indoor scene generation holds broad applications, ranging from gaming and smart homes to AR/VR applications. Fast and high-fidelity scene generation is paramount for ensuring user-friendly experiences. However, existing methods are characterized by lengthy generation processes or necessitate the intricate manual specification of motion parameters, which introduces inconvenience for users. Furthermore, these methods often rely on narrow-field viewpoint iterative generations, compromising global consistency and overall scene quality. To address these issues, we propose FastScene, a framework for fast and higher-quality 3D scene generation, while maintaining the scene consistency. Specifically, given a text prompt, we generate a panorama and estimate its depth, since the panorama encompasses information about the entire scene and exhibits explicit geometric constraints. To obtain high-quality novel views, we introduce the Coarse View Synthesis (CVS) and Progressive Novel View Inpainting (PNVI) strategies, ensuring both scene consistency and view quality. Subsequently, we utilize Multi-View Projection (MVP) to form perspective views, and apply 3D Gaussian Splatting (3DGS) for scene reconstruction. Comprehensive experiments demonstrate FastScene surpasses other methods in both generation speed and quality with better scene consistency. Notably, guided only by a text prompt, FastScene can generate a 3D scene within a mere 15 minutes, which is at least one hour faster than state-of-the-art methods, making it a paradigm for user-friendly scene generation.
- Abstract(参考訳): テキスト駆動の3D屋内シーン生成は、ゲームやスマートホームからAR/VRアプリケーションまで幅広いアプリケーションを提供している。
ユーザフレンドリーなエクスペリエンスを確保するためには,高速かつ高忠実なシーン生成が最重要である。
しかし,既存の手法は,ユーザにとって不便な動作パラメータの複雑な手作業による記述を必要とする,長い生成プロセスによって特徴付けられる。
さらに、これらの手法はしばしば狭視野視点の反復世代に依存し、グローバルな一貫性と全体のシーン品質を損なう。
これらの問題に対処するため,高速かつ高品質な3Dシーン生成のためのフレームワークであるFastSceneを提案する。
具体的には、テキストプロンプトが与えられた場合、パノラマがシーン全体に関する情報を包含し、明示的な幾何学的制約を示すため、パノラマを生成し、その深さを推定する。
高品質な新規ビューを実現するために,CVS(Coarse View Synthesis)とPNVI(Progressive Novel View Inpainting)戦略を導入し,シーンの一貫性とビュー品質を両立させる。
その後,多視点プロジェクション(MVP)を用いて視点ビューを作成し,シーン再構築に3次元ガウススプラッティング(3DGS)を適用した。
総合的な実験では、FastSceneが生成速度と品質の両方で他のメソッドを上回り、シーンの一貫性が向上している。
特に、テキストプロンプトのみでガイドされるFastSceneは、わずか15分で3Dシーンを生成することができる。
関連論文リスト
- HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions [31.342899807980654]
3Dシーン生成は、仮想現実、ゲーム、映画産業など、さまざまな領域で高い需要がある。
フル3Dシーンの全体的初期化として,最初に高精細パノラマを生成するフレームワークであるHoloDreamerを紹介する。
そして、3Dガウススティング(3D-GS)を活用して3Dシーンを迅速に再構築し、ビュー一貫性と完全に囲まれた3Dシーンの作成を容易にする。
論文 参考訳(メタデータ) (2024-07-21T14:52:51Z) - Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting [75.7154104065613]
本稿では,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを提案する。
また,地上の真理幾何に基づくシーン生成手法のベンチマーク手法も導入した。
論文 参考訳(メタデータ) (2024-04-30T17:59:40Z) - DreamScene: 3D Gaussian-based Text-to-3D Scene Generation via Formation Pattern Sampling [17.807481666320825]
本稿では,上記の3つの課題に主に2つの戦略を用いて対処する,新しいテキストから3Dシーン生成フレームワークDreamSceneを提案する。
まずDreamSceneは、3Dオブジェクトの生成パターンによってガイドされるマルチステップサンプリング戦略であるFormation Pattern Smpling(FPS)を採用して、高速でセマンティックにリッチで高品質な表現を形成する。
第二に、DreamSceneは、屋内と屋外の両方に特化して設計されたプログレッシブな3段階カメラサンプリング戦略を採用しており、オブジェクト環境統合とシーン全体の3D一貫性を効果的に確保している。
論文 参考訳(メタデータ) (2024-04-04T16:38:57Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - RoomDreamer: Text-Driven 3D Indoor Scene Synthesis with Coherent
Geometry and Texture [80.0643976406225]
本稿では、強力な自然言語を利用して異なるスタイルの部屋を合成する「RoomDreamer」を提案する。
本研究は,入力シーン構造に整合した形状とテクスチャを同時に合成することの課題に対処する。
提案手法を検証するため,スマートフォンでスキャンした屋内シーンを大規模な実験に利用した。
論文 参考訳(メタデータ) (2023-05-18T22:57:57Z) - SceneScape: Text-Driven Consistent Scene Generation [14.348512536556413]
本稿では,事前学習したテキスト・ツー・イメージモデルと事前学習した単眼深度予測モデルを組み合わせることで,このような動画をオンライン形式で生成する新しいフレームワークを提案する。
3次元の整合性を達成するための重要な課題に対処するため、オンラインテストタイムトレーニングを展開、現在のフレームの予測深度マップが合成シーンと幾何的に整合するように促す。
限定的な領域のみに適用できる以前の作品とは対照的に,本手法では,宇宙船や洞窟,あるいは氷の城の歩行など,多様な場面を創出する。
論文 参考訳(メタデータ) (2023-02-02T14:47:19Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z) - Neural Sparse Voxel Fields [151.20366604586403]
高速かつ高品質な自由視点レンダリングのためのニューラルシーン表現であるNeural Sparse Voxel Fields (NSVF)を紹介する。
NSVFは、各細胞の局所特性をモデル化するために、スパース・ボクセル・オクツリーで組織された、ボクセルに結合した暗黙のフィールドのセットを定義する。
提案手法は, 高い品質を達成しつつ, 推論時の最先端技術(NeRF(Mildenhall et al., 2020))よりも10倍以上高速である。
論文 参考訳(メタデータ) (2020-07-22T17:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。