論文の概要: SSEditor: Controllable Mask-to-Scene Generation with Diffusion Model
- arxiv url: http://arxiv.org/abs/2411.12290v1
- Date: Tue, 19 Nov 2024 07:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:38:01.975585
- Title: SSEditor: Controllable Mask-to-Scene Generation with Diffusion Model
- Title(参考訳): SS編集装置:拡散モデルによる制御可能なマスク・ツー・シーン生成
- Authors: Haowen Zheng, Yanyan Liang,
- Abstract要約: SSEditorはコントロール可能なセマンティックシーンエディタで、複数のステップを再サンプリングすることなく特定のターゲットカテゴリを生成することができる。
第2段階では、幾何学的・意味的な情報を学習するモデルの能力を高める幾何学的・意味的融合モジュールを導入する。
未確認のOcc-3Dデータセットの実験は、SSEditorが新しい都市シーンを生成することができることを示している。
- 参考スコア(独自算出の注目度): 8.664947484778486
- License:
- Abstract: Recent advancements in 3D diffusion-based semantic scene generation have gained attention. However, existing methods rely on unconditional generation and require multiple resampling steps when editing scenes, which significantly limits their controllability and flexibility. To this end, we propose SSEditor, a controllable Semantic Scene Editor that can generate specified target categories without multiple-step resampling. SSEditor employs a two-stage diffusion-based framework: (1) a 3D scene autoencoder is trained to obtain latent triplane features, and (2) a mask-conditional diffusion model is trained for customizable 3D semantic scene generation. In the second stage, we introduce a geometric-semantic fusion module that enhance the model's ability to learn geometric and semantic information. This ensures that objects are generated with correct positions, sizes, and categories. Extensive experiments on SemanticKITTI and CarlaSC demonstrate that SSEditor outperforms previous approaches in terms of controllability and flexibility in target generation, as well as the quality of semantic scene generation and reconstruction. More importantly, experiments on the unseen Occ-3D Waymo dataset show that SSEditor is capable of generating novel urban scenes, enabling the rapid construction of 3D scenes.
- Abstract(参考訳): 3次元拡散に基づくセマンティックシーン生成の最近の進歩が注目されている。
しかし、既存の手法は非条件生成に依存しており、シーンを編集する際に複数の再サンプリングステップを必要とするため、制御性や柔軟性は著しく制限される。
そこで本研究では,複数のステップを再サンプリングすることなく,特定のターゲットカテゴリを生成可能な,制御可能なセマンティックシーンエディタであるSSEditorを提案する。
SSEditorは,(1)3次元シーンオートエンコーダをトレーニングし,(3)マスク条件拡散モデルをカスタマイズ可能な3次元シーン生成のために訓練する。
第2段階では、幾何学的・意味的な情報を学習するモデルの能力を高める幾何学的・意味的融合モジュールを導入する。
これにより、オブジェクトが正しい位置、サイズ、カテゴリで生成されることを保証する。
SemanticKITTIとCarlaSCの大規模な実験により、SSEditorは、セマンティックシーンの生成と再構築の質だけでなく、ターゲット生成の制御性と柔軟性という点で、従来のアプローチよりも優れていたことが示されている。
さらに重要なことは、未確認のOcc-3D Waymoデータセットの実験は、SSEditorが新しい都市シーンを生成でき、3Dシーンを迅速に構築できることを示している。
関連論文リスト
- Layout2Scene: 3D Semantic Layout Guided Scene Generation via Geometry and Appearance Diffusion Priors [52.63385546943866]
本稿では,3次元オブジェクト位置の正確な制御をインジェクションするプロンプトとして,追加のセマンティックレイアウトを用いたテキスト・ツー・シーン生成手法(Layout2Scene)を提案する。
幾何学および外見生成における2次元拡散先行をフル活用するために,意味誘導幾何拡散モデルと意味誘導幾何誘導拡散モデルを導入する。
我々の手法は、最先端のアプローチに比べて、より可塑性でリアルなシーンを生成することができる。
論文 参考訳(メタデータ) (2025-01-05T12:20:13Z) - SceneFactor: Factored Latent 3D Diffusion for Controllable 3D Scene Generation [44.354071773885735]
SceneFactorは、大規模な3Dシーン生成のための拡散ベースのアプローチである。
制御可能な生成と手間のかかる編集を可能にする。
提案手法は,効率的な編集が可能な高忠実度3次元シーン合成を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:47:41Z) - 3DSceneEditor: Controllable 3D Scene Editing with Gaussian Splatting [31.98493679748211]
ガウススプラッティングを用いた3次元シーンのリアルタイムかつ高精度な編集を行う3DceneEditorを提案する。
従来の方法とは異なり、3DSceneEditorは3Dパイプラインを通して動作し、効率よく高品質な編集のためにガウシアンを直接操作できる。
論文 参考訳(メタデータ) (2024-12-02T15:03:55Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - 3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting [100.94916668527544]
既存の方法は、個々の2Dオブジェクトまたは3Dグローバルシーン編集にのみ焦点をあてる。
本稿では,新鮮で統一的なシーン編集フレームワークである3DitSceneを提案する。
2Dから3Dへのシームレスな編集が可能で、シーン構成や個々のオブジェクトを正確に制御できる。
論文 参考訳(メタデータ) (2024-05-28T17:59:01Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキスト記述のみで高度に一貫した3Dシーンを作成する方法であるDreamScapeを提案する。
本手法では,シーン表現のための3次元ガウスガイドを,意味的プリミティブ(オブジェクト)とその空間変換によって構成する。
プログレッシブスケール制御は、局所オブジェクト生成中に調整され、異なるサイズと密度のオブジェクトがシーンに適応することを保証する。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - GAUDI: A Neural Architect for Immersive 3D Scene Generation [67.97817314857917]
GAUDIは、動くカメラから没入的にレンダリングできる複雑な3Dシーンの分布をキャプチャできる生成モデルである。
GAUDIは,複数のデータセットにまたがる非条件生成環境において,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-27T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。