論文の概要: Camera-based 3D Semantic Scene Completion with Sparse Guidance Network
- arxiv url: http://arxiv.org/abs/2312.05752v2
- Date: Sun, 29 Sep 2024 06:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:59:58.212116
- Title: Camera-based 3D Semantic Scene Completion with Sparse Guidance Network
- Title(参考訳): スパース誘導ネットワークを用いたカメラベース3次元セマンティックシーンコンプリート
- Authors: Jianbiao Mei, Yu Yang, Mengmeng Wang, Junyu Zhu, Jongwon Ra, Yukai Ma, Laijian Li, Yong Liu,
- Abstract要約: 本稿では,SGNと呼ばれるカメラベースのセマンティックシーン補完フレームワークを提案する。
SGNは空間幾何学的手がかりに基づいてセマンティック・アウェア・シード・ボクセルからシーン全体へのセマンティクスの伝播を行う。
実験の結果,既存の最先端手法よりもSGNの方が優れていることが示された。
- 参考スコア(独自算出の注目度): 18.415854443539786
- License:
- Abstract: Semantic scene completion (SSC) aims to predict the semantic occupancy of each voxel in the entire 3D scene from limited observations, which is an emerging and critical task for autonomous driving. Recently, many studies have turned to camera-based SSC solutions due to the richer visual cues and cost-effectiveness of cameras. However, existing methods usually rely on sophisticated and heavy 3D models to process the lifted 3D features directly, which are not discriminative enough for clear segmentation boundaries. In this paper, we adopt the dense-sparse-dense design and propose a one-stage camera-based SSC framework, termed SGN, to propagate semantics from the semantic-aware seed voxels to the whole scene based on spatial geometry cues. Firstly, to exploit depth-aware context and dynamically select sparse seed voxels, we redesign the sparse voxel proposal network to process points generated by depth prediction directly with the coarse-to-fine paradigm. Furthermore, by designing hybrid guidance (sparse semantic and geometry guidance) and effective voxel aggregation for spatial geometry cues, we enhance the feature separation between different categories and expedite the convergence of semantic propagation. Finally, we devise the multi-scale semantic propagation module for flexible receptive fields while reducing the computation resources. Extensive experimental results on the SemanticKITTI and SSCBench-KITTI-360 datasets demonstrate the superiority of our SGN over existing state-of-the-art methods. And even our lightweight version SGN-L achieves notable scores of 14.80\% mIoU and 45.45\% IoU on SeamnticKITTI validation with only 12.5 M parameters and 7.16 G training memory. Code is available at https://github.com/Jieqianyu/SGN.
- Abstract(参考訳): セマンティック・シーン・コンプリート(SSC)は、自律運転における新たな重要な課題である、限られた観察から、3Dシーン全体における各ボクセルのセマンティック・コンプリート(セマンティック・シーン・コンプリート)を予測することを目的としている。
近年、多くの研究が、よりリッチな視覚的手がかりとカメラの費用対効果のために、カメラベースのSSCソリューションに転換している。
しかし、既存の手法は通常、持ち上げられた3D特徴を直接処理するために高度で重い3Dモデルに依存しており、明確なセグメンテーション境界を識別するには不十分である。
本稿では,SGNと呼ばれる一段カメラベースのSSCフレームワークを,空間幾何学的手法に基づいて,セマンティック・アウェア・シード・ボクセルからシーン全体へのセマンティクスの伝達のために提案する。
まず、深度を意識したコンテキストを活用し、スパースシードのボクセルを動的に選択するために、粗大なパラダイムと直接的に深度予測によって生成される点を処理するためにスパースボクセル提案ネットワークを再設計する。
さらに、空間幾何学的手がかりに対するハイブリッドガイダンス(スパース・セマンティック・ジオメトリ・ガイダンス)と効果的なボクセル・アグリゲーションを設計することにより、異なるカテゴリ間の特徴分離を強化し、意味伝播の収束を早める。
最後に、フレキシブルな受容場のためのマルチスケールセマンティック・プロパゲーション・モジュールを考案し、計算資源を削減した。
SemanticKITTIとSSCBench-KITTI-360データセットの大規模な実験結果は、既存の最先端手法よりもSGNの方が優れていることを示している。
私たちの軽量バージョンであるSGN-Lでさえ、12.5Mパラメータと7.16Gトレーニングメモリしか持たないSeamnticKITTIバリデーションにおいて14.80\% mIoUと45.45\% IoUの顕著なスコアを達成しています。
コードはhttps://github.com/Jieqianyu/SGN.comで入手できる。
関連論文リスト
- OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - DepthSSC: Depth-Spatial Alignment and Dynamic Voxel Resolution for
Monocular 3D Semantic Scene Completion [0.4662017507844857]
DepthSSCはモノクロカメラのみをベースとしたセマンティックシーン補完手法である。
従来の手法で観察された空間的不整合や歪みの問題を緩和する。
複雑な3D構造の詳細をキャプチャーし、最先端のパフォーマンスを実現する効果を実証する。
論文 参考訳(メタデータ) (2023-11-28T01:47:51Z) - S4C: Self-Supervised Semantic Scene Completion with Neural Fields [54.35865716337547]
3Dセマンティックシーン理解はコンピュータビジョンにおける根本的な課題である。
SSCの現在の手法は、集約されたLiDARスキャンに基づいて、一般に3D地上真実に基づいて訓練されている。
本研究は,S4Cと呼ばれる3次元地上真理データに依存しないSSCに対して,初めての自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-11T14:19:05Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - SSC-RS: Elevate LiDAR Semantic Scene Completion with Representation
Separation and BEV Fusion [17.459062337718677]
本稿では,表現分離とBEV融合の観点から,屋外SSCを解くことを提案する。
本稿では,SSC-RSと命名されたネットワークについて述べる。このネットワークは,意味的および幾何学的表現の学習手順を明示的に切り離すために,深い監督を伴う分岐を用いている。
提案したAdaptive Representation Fusion (ARF) モジュールを備えたBEV融合ネットワークを用いて, マルチスケール特徴を効果的かつ効率的に集約する。
論文 参考訳(メタデータ) (2023-06-27T10:02:45Z) - PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic
Segmentation [45.39981876226129]
本研究では、カメラのみの3Dシーン理解のための統一的な占有表現の実現を目的とした、カメラベースの3Dパノプティクスセグメンテーションについて研究する。
マルチフレーム画像とマルチビュー画像からのセマンティック情報を集約するために,voxelクエリを利用するPanoOccという新しい手法を提案する。
提案手法は,nuScenesデータセット上でのカメラベースセグメンテーションとパノプティクスセグメンテーションのための最新の結果を実現する。
論文 参考訳(メタデータ) (2023-06-16T17:59:33Z) - SSCBench: Monocular 3D Semantic Scene Completion Benchmark in Street
Views [89.8436375840446]
SSCBenchは、広く使用されている自動車データセットのシーンを統合するベンチマークである。
我々は、単眼、三眼、クラウド入力を用いて、性能ギャップを評価するモデルをベンチマークする。
クロスドメインの一般化テストを簡単にするために、さまざまなデータセットにまたがったセマンティックラベルを統一しています。
論文 参考訳(メタデータ) (2023-06-15T09:56:33Z) - 3D Scene Geometry-Aware Constraint for Camera Localization with Deep
Learning [11.599633757222406]
近年、畳み込みニューラルネットワークに基づくエンドツーエンドのアプローチは、従来の3次元幾何学に基づく手法を達成または超えるように研究されている。
本研究では,絶対カメラポーズ回帰のためのコンパクトネットワークを提案する。
これらの従来の手法から着想を得た3Dシーンの幾何学的制約も、動き、深さ、画像の内容を含むすべての利用可能な情報を活用することによって導入される。
論文 参考訳(メタデータ) (2020-05-13T04:15:14Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。