論文の概要: SSEditor: Controllable Mask-to-Scene Generation with Diffusion Model
- arxiv url: http://arxiv.org/abs/2411.12290v1
- Date: Tue, 19 Nov 2024 07:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:38:01.975585
- Title: SSEditor: Controllable Mask-to-Scene Generation with Diffusion Model
- Title(参考訳): SS編集装置:拡散モデルによる制御可能なマスク・ツー・シーン生成
- Authors: Haowen Zheng, Yanyan Liang,
- Abstract要約: SSEditorはコントロール可能なセマンティックシーンエディタで、複数のステップを再サンプリングすることなく特定のターゲットカテゴリを生成することができる。
第2段階では、幾何学的・意味的な情報を学習するモデルの能力を高める幾何学的・意味的融合モジュールを導入する。
未確認のOcc-3Dデータセットの実験は、SSEditorが新しい都市シーンを生成することができることを示している。
- 参考スコア(独自算出の注目度): 8.664947484778486
- License:
- Abstract: Recent advancements in 3D diffusion-based semantic scene generation have gained attention. However, existing methods rely on unconditional generation and require multiple resampling steps when editing scenes, which significantly limits their controllability and flexibility. To this end, we propose SSEditor, a controllable Semantic Scene Editor that can generate specified target categories without multiple-step resampling. SSEditor employs a two-stage diffusion-based framework: (1) a 3D scene autoencoder is trained to obtain latent triplane features, and (2) a mask-conditional diffusion model is trained for customizable 3D semantic scene generation. In the second stage, we introduce a geometric-semantic fusion module that enhance the model's ability to learn geometric and semantic information. This ensures that objects are generated with correct positions, sizes, and categories. Extensive experiments on SemanticKITTI and CarlaSC demonstrate that SSEditor outperforms previous approaches in terms of controllability and flexibility in target generation, as well as the quality of semantic scene generation and reconstruction. More importantly, experiments on the unseen Occ-3D Waymo dataset show that SSEditor is capable of generating novel urban scenes, enabling the rapid construction of 3D scenes.
- Abstract(参考訳): 3次元拡散に基づくセマンティックシーン生成の最近の進歩が注目されている。
しかし、既存の手法は非条件生成に依存しており、シーンを編集する際に複数の再サンプリングステップを必要とするため、制御性や柔軟性は著しく制限される。
そこで本研究では,複数のステップを再サンプリングすることなく,特定のターゲットカテゴリを生成可能な,制御可能なセマンティックシーンエディタであるSSEditorを提案する。
SSEditorは,(1)3次元シーンオートエンコーダをトレーニングし,(3)マスク条件拡散モデルをカスタマイズ可能な3次元シーン生成のために訓練する。
第2段階では、幾何学的・意味的な情報を学習するモデルの能力を高める幾何学的・意味的融合モジュールを導入する。
これにより、オブジェクトが正しい位置、サイズ、カテゴリで生成されることを保証する。
SemanticKITTIとCarlaSCの大規模な実験により、SSEditorは、セマンティックシーンの生成と再構築の質だけでなく、ターゲット生成の制御性と柔軟性という点で、従来のアプローチよりも優れていたことが示されている。
さらに重要なことは、未確認のOcc-3D Waymoデータセットの実験は、SSEditorが新しい都市シーンを生成でき、3Dシーンを迅速に構築できることを示している。
関連論文リスト
- EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEdit-Roomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文 参考訳(メタデータ) (2024-10-03T17:42:24Z) - 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - 3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting [100.94916668527544]
既存の方法は、個々の2Dオブジェクトまたは3Dグローバルシーン編集にのみ焦点をあてる。
本稿では,新鮮で統一的なシーン編集フレームワークである3DitSceneを提案する。
2Dから3Dへのシームレスな編集が可能で、シーン構成や個々のオブジェクトを正確に制御できる。
論文 参考訳(メタデータ) (2024-05-28T17:59:01Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキスト記述のみで高度に一貫した3Dシーンを作成する方法であるDreamScapeを提案する。
本手法では,シーン表現のための3次元ガウスガイドを,意味的プリミティブ(オブジェクト)とその空間変換によって構成する。
プログレッシブスケール制御は、局所オブジェクト生成中に調整され、異なるサイズと密度のオブジェクトがシーンに適応することを保証する。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z) - CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D Scene Layout [13.364394556439992]
テキストから3Dの形式は、AR/VRのための編集可能な3Dシーンを作成する上で重要な役割を果たす。
最近の進歩は、テキストから3Dオブジェクト生成のための事前訓練された拡散モデルとニューラルラジアンス場(NeRF)を融合させる可能性を示している。
編集可能な3Dシーンレイアウトとオブジェクト固有およびシーンワイドガイダンス機構を統合することで,CompoNeRFと呼ばれる新しいフレームワークを提案する。
本フレームワークは,マルチビューCLIPスコア測定によって最大54%の改善を実現している。
論文 参考訳(メタデータ) (2023-03-24T07:37:09Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - GAUDI: A Neural Architect for Immersive 3D Scene Generation [67.97817314857917]
GAUDIは、動くカメラから没入的にレンダリングできる複雑な3Dシーンの分布をキャプチャできる生成モデルである。
GAUDIは,複数のデータセットにまたがる非条件生成環境において,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-27T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。