論文の概要: Octree Latent Diffusion for Semantic 3D Scene Generation and Completion
- arxiv url: http://arxiv.org/abs/2509.16483v1
- Date: Sat, 20 Sep 2025 00:53:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.815203
- Title: Octree Latent Diffusion for Semantic 3D Scene Generation and Completion
- Title(参考訳): セマンティック3次元シーン生成と完成のためのOctree Latent Diffusion
- Authors: Xujia Zhang, Brendan Crowe, Christoffer Heckman,
- Abstract要約: 本研究では,屋内と屋外の両方でシーン補完,拡張,生成を行うことのできる単一のフレームワークを開発する。
提案手法は,効率的な2重オクツリーグラフ潜在表現を直接操作する。
単一LiDARスキャンによる高品質な構造,コヒーレントなセマンティクス,ロバストな補完を実証する。
- 参考スコア(独自算出の注目度): 2.8992197334880268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The completion, extension, and generation of 3D semantic scenes are an interrelated set of capabilities that are useful for robotic navigation and exploration. Existing approaches seek to decouple these problems and solve them oneoff. Additionally, these approaches are often domain-specific, requiring separate models for different data distributions, e.g. indoor vs. outdoor scenes. To unify these techniques and provide cross-domain compatibility, we develop a single framework that can perform scene completion, extension, and generation in both indoor and outdoor scenes, which we term Octree Latent Semantic Diffusion. Our approach operates directly on an efficient dual octree graph latent representation: a hierarchical, sparse, and memory-efficient occupancy structure. This technique disentangles synthesis into two stages: (i) structure diffusion, which predicts binary split signals to construct a coarse occupancy octree, and (ii) latent semantic diffusion, which generates semantic embeddings decoded by a graph VAE into voxellevel semantic labels. To perform semantic scene completion or extension, our model leverages inference-time latent inpainting, or outpainting respectively. These inference-time methods use partial LiDAR scans or maps to condition generation, without the need for retraining or finetuning. We demonstrate highquality structure, coherent semantics, and robust completion from single LiDAR scans, as well as zero-shot generalization to out-of-distribution LiDAR data. These results indicate that completion-through-generation in a dual octree graph latent space is a practical and scalable alternative to regression-based pipelines for real-world robotic perception tasks.
- Abstract(参考訳): 3Dセマンティックシーンの完成、拡張、生成は、ロボットナビゲーションと探索に有用な、関連した機能セットである。
既存のアプローチは、これらの問題を分離して解決しようと試みている。
さらに、これらのアプローチはドメイン固有であり、屋内と屋外のシーンなど、異なるデータ分散のための別々のモデルを必要とすることが多い。
これらの技術を統一し、ドメイン間の互換性を提供するため、屋内および屋外の両方でシーン補完、拡張、生成が可能な単一のフレームワークを開発し、これをOctree Latent Semantic Diffusionと呼ぶ。
提案手法は, 階層構造, スパース構造, メモリ効率の高い占有構造という, 効率的な2重オクツリーグラフ潜在表現を直接操作する。
この技術は合成を2段階に分離する。
一 粗い占有オクツリーを構築するために二分分割信号を予測する構造拡散、及び
(II) グラフVAEでデコードされたセマンティック埋め込みをボクセルレベルのセマンティックラベルに生成する潜在セマンティック拡散。
セマンティック・シーン・コンプリート・エンプリート・エンプリート・エンプリート・エンプリート・エンプリート・インプリート・インプリート・インプリート・インプリート・インプリート・インプリート・インプリート・インプリート・インプリート・インプリート・インプリート・イン
これらの推論時間法は、リトレーニングや微調整を必要とせず、部分的なLiDARスキャンや条件生成にマップを使用する。
我々は、単一LiDARスキャンによる高品質な構造、コヒーレントなセマンティクス、ロバストな補完、および非ショットなLiDARデータへの一般化を実証する。
これらの結果は、二重オクツリーグラフ潜在空間における完了スルー生成が、現実のロボット認識タスクのための回帰に基づくパイプラインの実用的でスケーラブルな代替であることを示している。
関連論文リスト
- OccLE: Label-Efficient 3D Semantic Occupancy Prediction [48.50138308129873]
3Dセマンティック占有予測は、直感的で効率的なシーン理解を提供する。
既存のアプローチは、完全な監督や、限られたガイダンスを提供し、最適以下のパフォーマンスを得るセルフスーパービジョンに依存している。
我々は,画像とLiDARを入力とし,限られたボクセルアノテーションで高い性能を維持するラベル効率のよい3Dセマンティックアクセシビリティ予測OccLEを提案する。
論文 参考訳(メタデータ) (2025-05-27T01:41:28Z) - Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving [27.088907562842902]
自律運転では、3Dセマンティックセグメンテーションが安全なナビゲーションを可能にする重要な役割を果たす。
3Dデータの収集と注釈付けの複雑さは、この開発のボトルネックである。
本稿では,3次元のセマンティック・シーン・スケールのデータを投影モデルやデカップリングモデルに頼らずに生成する手法を提案する。
論文 参考訳(メタデータ) (2025-03-27T12:41:42Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - LISNeRF Mapping: LiDAR-based Implicit Mapping via Semantic Neural Fields for Large-Scale 3D Scenes [2.822816116516042]
大規模セマンティックマッピングは、屋外の自律エージェントが計画やナビゲーションといった高度なタスクを遂行するために不可欠である。
本稿では,提案するLiDAR測度のみでの暗黙的表現による大規模3次元意味再構築手法を提案する。
論文 参考訳(メタデータ) (2023-11-04T03:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。