論文の概要: DGOcc: Depth-aware Global Query-based Network for Monocular 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2504.07524v1
- Date: Thu, 10 Apr 2025 07:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:20:50.981808
- Title: DGOcc: Depth-aware Global Query-based Network for Monocular 3D Occupancy Prediction
- Title(参考訳): DGOcc: モノクローナルな3D作業予測のための深さ対応グローバルクエリベースのネットワーク
- Authors: Xu Zhao, Pengju Zhang, Bo Liu, Yihong Wu,
- Abstract要約: 2次元画像から大規模屋外シーンの3次元占有を予測することは、不適切で資源集約的である。
モノクロ3DのtextbfOccupancy 予測のための textbfGlobal クエリベースのネットワーク textbfDGOcc を提案する。
提案手法は,GPUと時間オーバーヘッドを低減しつつ,単分子的セマンティック占有率予測における最高の性能を実現する。
- 参考スコア(独自算出の注目度): 17.38916914453357
- License:
- Abstract: Monocular 3D occupancy prediction, aiming to predict the occupancy and semantics within interesting regions of 3D scenes from only 2D images, has garnered increasing attention recently for its vital role in 3D scene understanding. Predicting the 3D occupancy of large-scale outdoor scenes from 2D images is ill-posed and resource-intensive. In this paper, we present \textbf{DGOcc}, a \textbf{D}epth-aware \textbf{G}lobal query-based network for monocular 3D \textbf{Occ}upancy prediction. We first explore prior depth maps to extract depth context features that provide explicit geometric information for the occupancy network. Then, in order to fully exploit the depth context features, we propose a Global Query-based (GQ) Module. The cooperation of attention mechanisms and scale-aware operations facilitates the feature interaction between images and 3D voxels. Moreover, a Hierarchical Supervision Strategy (HSS) is designed to avoid upsampling the high-dimension 3D voxel features to full resolution, which mitigates GPU memory utilization and time cost. Extensive experiments on SemanticKITTI and SSCBench-KITTI-360 datasets demonstrate that the proposed method achieves the best performance on monocular semantic occupancy prediction while reducing GPU and time overhead.
- Abstract(参考訳): たった2D画像から3Dシーンの興味ある領域における占有と意味を予測することを目的とした単眼的3D占有予測は,近年,その3Dシーン理解における重要な役割として注目を集めている。
2次元画像から大規模屋外シーンの3次元占有を予測することは、不適切で資源集約的である。
本稿では,モノラルな3D \textbf{D}epth-aware \textbf{G}lobal query-based network for monocular 3D \textbf{Occ}upancy predictionについて述べる。
まず, 先行深度マップを探索し, 占有ネットワークに明示的な幾何学的情報を提供する深度コンテキストの特徴を抽出する。
そして,深度コンテキストの特徴をフル活用するために,グローバルクエリーベース(GQ)モジュールを提案する。
注意機構とスケールアウェア操作の協調により、画像と3Dボクセル間の特徴的相互作用が促進される。
さらに、階層的スーパービジョン戦略(HSS)は、高次元の3Dボクセル機能をフル解像度にアップサンプリングしないように設計されており、GPUメモリの利用と時間コストを軽減している。
SemanticKITTI と SSCBench-KITTI-360 データセットの大規模な実験により,提案手法は,GPU と時間オーバーヘッドを低減しつつ,単分子的セマンティック占有率予測において最高の性能を達成することを示した。
関連論文リスト
- SliceOcc: Indoor 3D Semantic Occupancy Prediction with Vertical Slice Representation [50.420711084672966]
室内3Dセマンティック占有予測に適したRGBカメラベースモデルであるSliceOccを提案する。
EmbodiedScanデータセットの実験結果は、SliceOccが81の屋内カテゴリで15.45%のmIoUを達成したことを示している。
論文 参考訳(メタデータ) (2025-01-28T03:41:24Z) - LOMA: Language-assisted Semantic Occupancy Network via Triplane Mamba [21.300636683882338]
言語支援型3Dセマンティック占有予測ネットワークLOMAを提案する。
視覚言語モデルを活用することで、このモジュールは暗黙的な幾何学的知識と言語からの明示的な意味情報を提供する。
本アルゴリズムは,幾何的および意味的完備化タスクにおいて,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-11T13:55:42Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - Self-supervised Pre-training with Masked Shape Prediction for 3D Scene
Understanding [106.0876425365599]
Masked Shape Prediction (MSP)は、3Dシーンでマスクされた信号モデリングを行うための新しいフレームワークである。
MSPは3Dセマンティックキュー、すなわち幾何学的形状をマスクされた点の予測ターゲットとして使用する。
論文 参考訳(メタデータ) (2023-05-08T20:09:19Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - A Novel 3D-UNet Deep Learning Framework Based on High-Dimensional
Bilateral Grid for Edge Consistent Single Image Depth Estimation [0.45880283710344055]
3DBG-UNetと呼ばれるバイラテラルグリッドベースの3D畳み込みニューラルネットワークは、UNetsでコンパクトな3D二元格子を符号化することで、高次元の特徴空間をパラメータ化する。
別の新しい3DBGES-UNetモデルは、3DBG-UNetを統合して1つのカラービューの正確な深度マップを推測するものである。
論文 参考訳(メタデータ) (2021-05-21T04:53:14Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。