論文の概要: SemCity: Semantic Scene Generation with Triplane Diffusion
- arxiv url: http://arxiv.org/abs/2403.07773v2
- Date: Wed, 13 Mar 2024 01:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 10:59:26.723360
- Title: SemCity: Semantic Scene Generation with Triplane Diffusion
- Title(参考訳): セムシティ:三面体拡散によるセマンティックシーン生成
- Authors: Jumin Lee, Sebin Lee, Changho Jo, Woobin Im, Juhyeong Seon, Sung-Eui
Yoon
- Abstract要約: セムシティ」は現実世界の屋外環境におけるセマンティックシーン生成のための3次元拡散モデルである。
本研究では,三面体表現をシーン分布のプロキシ形式として利用し,拡散モデルを用いて学習する。
私たちは、シーン内のオブジェクトのシームレスな追加、削除、修正を容易にするトリプレーン操作を示します。
- 参考スコア(独自算出の注目度): 17.402832646868898
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present "SemCity," a 3D diffusion model for semantic scene generation in
real-world outdoor environments. Most 3D diffusion models focus on generating a
single object, synthetic indoor scenes, or synthetic outdoor scenes, while the
generation of real-world outdoor scenes is rarely addressed. In this paper, we
concentrate on generating a real-outdoor scene through learning a diffusion
model on a real-world outdoor dataset. In contrast to synthetic data,
real-outdoor datasets often contain more empty spaces due to sensor
limitations, causing challenges in learning real-outdoor distributions. To
address this issue, we exploit a triplane representation as a proxy form of
scene distributions to be learned by our diffusion model. Furthermore, we
propose a triplane manipulation that integrates seamlessly with our triplane
diffusion model. The manipulation improves our diffusion model's applicability
in a variety of downstream tasks related to outdoor scene generation such as
scene inpainting, scene outpainting, and semantic scene completion refinements.
In experimental results, we demonstrate that our triplane diffusion model shows
meaningful generation results compared with existing work in a real-outdoor
dataset, SemanticKITTI. We also show our triplane manipulation facilitates
seamlessly adding, removing, or modifying objects within a scene. Further, it
also enables the expansion of scenes toward a city-level scale. Finally, we
evaluate our method on semantic scene completion refinements where our
diffusion model enhances predictions of semantic scene completion networks by
learning scene distribution. Our code is available at
https://github.com/zoomin-lee/SemCity.
- Abstract(参考訳): 実世界の屋外環境におけるセマンティックシーン生成のための3次元拡散モデル「セムシティ」を提案する。
ほとんどの3D拡散モデルは、単一のオブジェクト、合成室内シーン、または合成屋外シーンを生成することに焦点を当てているが、実際の屋外シーンの生成はほとんど解決されていない。
本稿では,実世界の屋外データセット上での拡散モデル学習を通じて,実際の屋外シーンを生成することに集中する。
合成データとは対照的に、実際の屋外データセットはセンサーの制限により、より空の空間を含むことが多く、実際の屋外分布を学習する際の課題となる。
この問題に対処するために,3平面表現をシーン分布のプロキシ形式として利用し,拡散モデルを用いて学習する。
さらに,我々の三面拡散モデルとシームレスに統合した三面体操作を提案する。
この操作により、屋外シーンの生成に関連する様々な作業、例えばシーンの塗り絵、シーンの塗り絵、セマンティックシーンの仕上げなどにおいて、拡散モデルの適用性が向上する。
実験の結果,我々の三面体拡散モデルでは,実空間データセットSemanticKITTIの既存手法と比較して有意義な生成結果が得られた。
また、シーン内のオブジェクトのシームレスな追加、削除、修正を容易にするトリプレーン操作も示しています。
また、都市レベルの規模への拡張も可能である。
最後に,この拡散モデルによりシーン分布の学習による意味的シーン補完ネットワークの予測が促進されるセマンティックシーン補完改善手法の評価を行った。
私たちのコードはhttps://github.com/zoomin-lee/SemCity.comで利用可能です。
関連論文リスト
- LT3SD: Latent Trees for 3D Scene Diffusion [71.91446143124648]
本稿では,大規模3次元シーン生成のための新しい潜時拡散モデルLT3SDを提案する。
大規模かつ高品質な非条件3Dシーン生成におけるLT3SDの有効性とメリットを実証する。
論文 参考訳(メタデータ) (2024-09-12T16:55:51Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。
シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。
実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - 3D scene generation from scene graphs and self-attention [51.49886604454926]
本稿では,シーングラフとフロアプランから3次元シーンを合成する条件付き変分オートエンコーダ(cVAE)モデルを提案する。
我々は、シーン内のオブジェクト間の高レベルな関係をキャプチャするために、自己注意層の特性を利用する。
論文 参考訳(メタデータ) (2024-04-02T12:26:17Z) - Scaling Diffusion Models to Real-World 3D LiDAR Scene Completion [25.69896680908217]
3D LiDARセンサーは、通常、シーンからスパース3Dポイントの雲を収集するために使用される。
本稿では,1枚のLiDARスキャンからシーン完了を実現するために,画像の生成モデルとして拡散モデルを拡張することを提案する。
提案手法は,1つのLiDARスキャンを入力としてシーンを完了し,最先端のシーン補完手法と比較して,より詳細なシーンを生成する。
論文 参考訳(メタデータ) (2024-03-20T10:19:05Z) - Urban Scene Diffusion through Semantic Occupancy Map [49.20779809250597]
UrbanDiffusionは、Bird's-Eye View (BEV)マップに条件付き3次元拡散モデルである。
我々のモデルは,潜在空間内のシーンレベルの構造の分布を学習する。
実世界の運転データセットをトレーニングした後、我々のモデルは多様な都市シーンを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T11:54:35Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Diffusion Probabilistic Models for Scene-Scale 3D Categorical Data [14.597576933841138]
我々は拡散モデルを学び、シーンスケールで3Dデータを生成する。
本研究は, シーンスケールの3次元分類データに対して, 離散的, 潜時拡散を適用した最初の試みである。
論文 参考訳(メタデータ) (2023-01-02T05:00:11Z) - Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。
合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。
実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文 参考訳(メタデータ) (2022-03-20T13:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。