論文の概要: SemCity: Semantic Scene Generation with Triplane Diffusion
- arxiv url: http://arxiv.org/abs/2403.07773v2
- Date: Wed, 13 Mar 2024 01:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 10:59:26.723360
- Title: SemCity: Semantic Scene Generation with Triplane Diffusion
- Title(参考訳): セムシティ:三面体拡散によるセマンティックシーン生成
- Authors: Jumin Lee, Sebin Lee, Changho Jo, Woobin Im, Juhyeong Seon, Sung-Eui
Yoon
- Abstract要約: セムシティ」は現実世界の屋外環境におけるセマンティックシーン生成のための3次元拡散モデルである。
本研究では,三面体表現をシーン分布のプロキシ形式として利用し,拡散モデルを用いて学習する。
私たちは、シーン内のオブジェクトのシームレスな追加、削除、修正を容易にするトリプレーン操作を示します。
- 参考スコア(独自算出の注目度): 17.402832646868898
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present "SemCity," a 3D diffusion model for semantic scene generation in
real-world outdoor environments. Most 3D diffusion models focus on generating a
single object, synthetic indoor scenes, or synthetic outdoor scenes, while the
generation of real-world outdoor scenes is rarely addressed. In this paper, we
concentrate on generating a real-outdoor scene through learning a diffusion
model on a real-world outdoor dataset. In contrast to synthetic data,
real-outdoor datasets often contain more empty spaces due to sensor
limitations, causing challenges in learning real-outdoor distributions. To
address this issue, we exploit a triplane representation as a proxy form of
scene distributions to be learned by our diffusion model. Furthermore, we
propose a triplane manipulation that integrates seamlessly with our triplane
diffusion model. The manipulation improves our diffusion model's applicability
in a variety of downstream tasks related to outdoor scene generation such as
scene inpainting, scene outpainting, and semantic scene completion refinements.
In experimental results, we demonstrate that our triplane diffusion model shows
meaningful generation results compared with existing work in a real-outdoor
dataset, SemanticKITTI. We also show our triplane manipulation facilitates
seamlessly adding, removing, or modifying objects within a scene. Further, it
also enables the expansion of scenes toward a city-level scale. Finally, we
evaluate our method on semantic scene completion refinements where our
diffusion model enhances predictions of semantic scene completion networks by
learning scene distribution. Our code is available at
https://github.com/zoomin-lee/SemCity.
- Abstract(参考訳): 実世界の屋外環境におけるセマンティックシーン生成のための3次元拡散モデル「セムシティ」を提案する。
ほとんどの3D拡散モデルは、単一のオブジェクト、合成室内シーン、または合成屋外シーンを生成することに焦点を当てているが、実際の屋外シーンの生成はほとんど解決されていない。
本稿では,実世界の屋外データセット上での拡散モデル学習を通じて,実際の屋外シーンを生成することに集中する。
合成データとは対照的に、実際の屋外データセットはセンサーの制限により、より空の空間を含むことが多く、実際の屋外分布を学習する際の課題となる。
この問題に対処するために,3平面表現をシーン分布のプロキシ形式として利用し,拡散モデルを用いて学習する。
さらに,我々の三面拡散モデルとシームレスに統合した三面体操作を提案する。
この操作により、屋外シーンの生成に関連する様々な作業、例えばシーンの塗り絵、シーンの塗り絵、セマンティックシーンの仕上げなどにおいて、拡散モデルの適用性が向上する。
実験の結果,我々の三面体拡散モデルでは,実空間データセットSemanticKITTIの既存手法と比較して有意義な生成結果が得られた。
また、シーン内のオブジェクトのシームレスな追加、削除、修正を容易にするトリプレーン操作も示しています。
また、都市レベルの規模への拡張も可能である。
最後に,この拡散モデルによりシーン分布の学習による意味的シーン補完ネットワークの予測が促進されるセマンティックシーン補完改善手法の評価を行った。
私たちのコードはhttps://github.com/zoomin-lee/SemCity.comで利用可能です。
関連論文リスト
- Sat2Scene: 3D Urban Scene Generation from Satellite Images with
Diffusion [82.97474530980999]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion
Models [85.20004959780132]
複雑な3D環境を合成できる生成モデルであるNeuralField-LDMを紹介する。
NeuralField-LDMは,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションに利用できることを示す。
論文 参考訳(メタデータ) (2023-04-19T16:13:21Z) - DiffuScene: Denoising Diffusion Models for Generative Indoor Scene
Synthesis [44.521452102413534]
拡散モデルに基づく屋内3次元シーン合成のためのDiffuSceneを提案する。
非順序オブジェクトセットに格納された3Dインスタンスプロパティを生成し、各オブジェクト設定に最もよく似た幾何学を検索する。
論文 参考訳(メタデータ) (2023-03-24T18:00:15Z) - SePaint: Semantic Map Inpainting via Multinomial Diffusion [12.217566404643033]
生成的多項拡散に基づく意味データに対する着色モデルであるSePaintを提案する。
本稿では,ワンステップのルックバック操作を行う新しい,効率的な条件戦略であるLook-Back Condition(LB-Con)を提案する。
提案手法は,様々なロボットアプリケーションでよく用いられる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-05T18:04:28Z) - Diffusion Probabilistic Models for Scene-Scale 3D Categorical Data [14.597576933841138]
我々は拡散モデルを学び、シーンスケールで3Dデータを生成する。
本研究は, シーンスケールの3次元分類データに対して, 離散的, 潜時拡散を適用した最初の試みである。
論文 参考訳(メタデータ) (2023-01-02T05:00:11Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。
合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。
実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文 参考訳(メタデータ) (2022-03-20T13:06:15Z) - Future Urban Scenes Generation Through Vehicles Synthesis [90.1731992199415]
本研究では,都市景観の視覚的外観を予測するためのディープラーニングパイプラインを提案する。
ループには解釈可能な情報が含まれ、各アクターは独立してモデル化される。
従来のCityFlowのシーン生成手法に比べて,このアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2020-07-01T08:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。