論文の概要: Generative Gaussian Splatting: Generating 3D Scenes with Video Diffusion Priors
- arxiv url: http://arxiv.org/abs/2503.13272v1
- Date: Mon, 17 Mar 2025 15:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:05.378738
- Title: Generative Gaussian Splatting: Generating 3D Scenes with Video Diffusion Priors
- Title(参考訳): ガウススプラッティング : ビデオ拡散前の3次元シーンの生成
- Authors: Katja Schwarz, Norman Mueller, Peter Kontschieder,
- Abstract要約: GGS(Generative Gaussian Splatting)は、3D表現と事前学習された遅延ビデオ拡散モデルを統合する新しい手法である。
本研究では,シーン合成のための2つの共通ベンチマークデータセットであるRealEstate10KとScanNet+について検討した。
- 参考スコア(独自算出の注目度): 11.156009461711639
- License:
- Abstract: Synthesizing consistent and photorealistic 3D scenes is an open problem in computer vision. Video diffusion models generate impressive videos but cannot directly synthesize 3D representations, i.e., lack 3D consistency in the generated sequences. In addition, directly training generative 3D models is challenging due to a lack of 3D training data at scale. In this work, we present Generative Gaussian Splatting (GGS) -- a novel approach that integrates a 3D representation with a pre-trained latent video diffusion model. Specifically, our model synthesizes a feature field parameterized via 3D Gaussian primitives. The feature field is then either rendered to feature maps and decoded into multi-view images, or directly upsampled into a 3D radiance field. We evaluate our approach on two common benchmark datasets for scene synthesis, RealEstate10K and ScanNet+, and find that our proposed GGS model significantly improves both the 3D consistency of the generated multi-view images, and the quality of the generated 3D scenes over all relevant baselines. Compared to a similar model without 3D representation, GGS improves FID on the generated 3D scenes by ~20% on both RealEstate10K and ScanNet+. Project page: https://katjaschwarz.github.io/ggs/
- Abstract(参考訳): 一貫性のあるフォトリアリスティックな3Dシーンを合成することは、コンピュータビジョンにおけるオープンな問題である。
ビデオ拡散モデルは印象的なビデオを生成するが、3D表現を直接合成することはできない。
さらに、3Dモデルを直接トレーニングすることは、大規模な3Dトレーニングデータが不足しているため困難である。
本稿では,GGS(Generative Gaussian Splatting)について述べる。GGS(Generative Gaussian Splatting)は3次元表現と事前学習した遅延ビデオ拡散モデルを統合する新しい手法である。
具体的には、3次元ガウス原始体を介してパラメータ化された特徴体を合成する。
特徴フィールドは、特徴マップにレンダリングされ、マルチビューイメージにデコードされるか、直接3Dラディアンスフィールドにアップサンプリングされる。
我々は,シーン合成のための2つの一般的なベンチマークデータセットであるRealEstate10KとScanNet+に対するアプローチを評価し,提案したGGSモデルが生成したマルチビュー画像の3D一貫性と,生成した3Dシーンのすべてのベースラインにおける品質を著しく改善することを発見した。
3D表現のない類似モデルと比較して、GGSは生成された3DシーンのFIDをRealEstate10KとScanNet+の両方で約20%改善する。
プロジェクトページ: https://katjaschwarz.github.io/ggs/
関連論文リスト
- You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.67300636733286]
本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。
このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。
低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文 参考訳(メタデータ) (2024-12-09T17:44:56Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - SuperGaussian: Repurposing Video Models for 3D Super Resolution [67.19266415499139]
本稿では,幾何学的および外観的詳細を付加することにより,粗い3次元モデルをアップサンプルする,単純でモジュラーで汎用的な手法を提案する。
既存の3次元超解像モデルを直接再利用できることを実証する。
論文 参考訳(メタデータ) (2024-06-02T03:44:50Z) - AGG: Amortized Generative 3D Gaussians for Single Image to 3D [108.38567665695027]
Amortized Generative 3D Gaussian framework (AGG) を導入する。
AGGは、共同最適化のための3Dガウス位置およびその他の外観特性の生成を分解する。
本稿では,まず3次元データの粗い表現を生成し,後に3次元ガウス超解像モジュールでアップサンプリングするカスケードパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-08T18:56:33Z) - WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。