論文の概要: BloomScene: Lightweight Structured 3D Gaussian Splatting for Crossmodal Scene Generation
- arxiv url: http://arxiv.org/abs/2501.10462v1
- Date: Wed, 15 Jan 2025 11:33:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:20.606535
- Title: BloomScene: Lightweight Structured 3D Gaussian Splatting for Crossmodal Scene Generation
- Title(参考訳): BloomScene: クロスモーダルシーン生成のための軽量構造型3Dガウススプレイティング
- Authors: Xiaolu Hou, Mingcheng Li, Dingkang Yang, Jiawei Chen, Ziyun Qian, Xiao Zhao, Yue Jiang, Jinjie Wei, Qingyao Xu, Lihua Zhang,
- Abstract要約: 3Dシーンは非常に複雑な構造を持ち、出力が密度が高く、一貫性があり、必要な全ての構造を含むことを保証する必要がある。
現在の3Dシーン生成法は、事前訓練されたテキスト・画像拡散モデルと単眼深度推定器に依存している。
クロスモーダルシーン生成のための軽量な3次元ガウススプラッティングであるBloomSceneを提案する。
- 参考スコア(独自算出の注目度): 16.00575923179227
- License:
- Abstract: With the widespread use of virtual reality applications, 3D scene generation has become a new challenging research frontier. 3D scenes have highly complex structures and need to ensure that the output is dense, coherent, and contains all necessary structures. Many current 3D scene generation methods rely on pre-trained text-to-image diffusion models and monocular depth estimators. However, the generated scenes occupy large amounts of storage space and often lack effective regularisation methods, leading to geometric distortions. To this end, we propose BloomScene, a lightweight structured 3D Gaussian splatting for crossmodal scene generation, which creates diverse and high-quality 3D scenes from text or image inputs. Specifically, a crossmodal progressive scene generation framework is proposed to generate coherent scenes utilizing incremental point cloud reconstruction and 3D Gaussian splatting. Additionally, we propose a hierarchical depth prior-based regularization mechanism that utilizes multi-level constraints on depth accuracy and smoothness to enhance the realism and continuity of the generated scenes. Ultimately, we propose a structured context-guided compression mechanism that exploits structured hash grids to model the context of unorganized anchor attributes, which significantly eliminates structural redundancy and reduces storage overhead. Comprehensive experiments across multiple scenes demonstrate the significant potential and advantages of our framework compared with several baselines.
- Abstract(参考訳): 仮想現実アプリケーションの普及に伴い、3Dシーン生成は新たな挑戦的な研究フロンティアとなっている。
3Dシーンは非常に複雑な構造を持ち、出力が密度が高く、一貫性があり、必要な全ての構造を含むことを保証する必要がある。
現在の3Dシーン生成法の多くは、事前訓練されたテキスト・画像拡散モデルと単眼深度推定器に依存している。
しかし、生成されたシーンは大量の記憶空間を占有し、しばしば効果的な正規化手法が欠如し、幾何学的歪みを生じさせる。
そこで本研究では,テキストや画像入力から多種多様な高品質な3Dシーンを生成する,クロスモーダルなシーン生成のための軽量な3DガウススプラッティングであるBloomSceneを提案する。
具体的には,増分点雲再構成と3次元ガウススプラッティングを利用したコヒーレントシーンを生成するために,クロスモーダルなプログレッシブシーン生成フレームワークを提案する。
さらに,階層的な奥行き先ベース正規化機構を提案する。これは,深度精度と滑らか性に対する多段階制約を利用して,生成されたシーンの現実性と連続性を高める。
最終的に、構造的アンカー属性のコンテキストをモデル化するために構造化ハッシュグリッドを利用する構造化コンテキスト誘導圧縮機構を提案し、構造的冗長性を著しく排除し、ストレージオーバーヘッドを低減する。
複数のシーンにわたる総合的な実験は、いくつかのベースラインと比較して、我々のフレームワークの持つ大きな可能性と利点を示しています。
関連論文リスト
- VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [62.6737516863285]
VideoLifterは、ビデオシーケンスから直接、グローバルスパースから高密度な3D表現に漸進的に最適化する新しいフレームワークである。
フレームやフラグメント間のスパースポイント対応の追跡と伝播によって、VideoLifterはカメラのポーズと3D構造を徐々に洗練する。
このアプローチは、視覚的忠実度と計算効率において、現在の最先端の手法を超越しながら、トレーニング時間を82%以上短縮する。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - CATSplat: Context-Aware Transformer with Spatial Guidance for Generalizable 3D Gaussian Splatting from A Single-View Image [18.445769892372528]
単視点3Dシーン再構成のための新しい一般化可能なトランスフォーマーベースのフレームワークであるCATSplatを紹介する。
シーン固有のコンテキストの詳細をテキスト埋め込みからクロスアテンションに組み込むことで、コンテキスト認識の再構築の道を開く。
大規模データセットを用いた実験により, 単視点3次元シーン再構成におけるCATSplatの最先端性能が実証された。
論文 参考訳(メタデータ) (2024-12-17T13:32:04Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルから潜伏木を用いた大規模再構成モデルを導入し,シーンの3次元ガウススプラッティングを予測する。
プログレッシブトレーニング戦略により,映像潜時空間上での3D再構成モデルをトレーニングし,高品質,広スコープ,汎用的な3Dシーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - SplatFields: Neural Gaussian Splats for Sparse 3D and 4D Reconstruction [24.33543853742041]
3Dガウススティング(3DGS)は実用的でスケーラブルな再構築手法として登場した。
暗黙的ニューラルネットワークの出力としてモデル化することで,スプレート特徴を効果的に正規化する最適化手法を提案する。
当社のアプローチは,異なるセットアップやシーンの複雑さをまたいだ広範なテストによって実証されるような,静的および動的ケースを効果的に処理する。
論文 参考訳(メタデータ) (2024-09-17T14:04:20Z) - LT3SD: Latent Trees for 3D Scene Diffusion [71.91446143124648]
本稿では,大規模3次元シーン生成のための新しい潜時拡散モデルLT3SDを提案する。
大規模かつ高品質な非条件3Dシーン生成におけるLT3SDの有効性とメリットを実証する。
論文 参考訳(メタデータ) (2024-09-12T16:55:51Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions [31.342899807980654]
3Dシーン生成は、仮想現実、ゲーム、映画産業など、さまざまな領域で高い需要がある。
フル3Dシーンの全体的初期化として,最初に高精細パノラマを生成するフレームワークであるHoloDreamerを紹介する。
そして、3Dガウススティング(3D-GS)を活用して3Dシーンを迅速に再構築し、ビュー一貫性と完全に囲まれた3Dシーンの作成を容易にする。
論文 参考訳(メタデータ) (2024-07-21T14:52:51Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。