論文の概要: DepthSSC: Depth-Spatial Alignment and Dynamic Voxel Resolution for
Monocular 3D Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2311.17084v1
- Date: Tue, 28 Nov 2023 01:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 00:18:59.924341
- Title: DepthSSC: Depth-Spatial Alignment and Dynamic Voxel Resolution for
Monocular 3D Semantic Scene Completion
- Title(参考訳): depthssc: 単眼3次元セマンティックシーンの奥行き空間アライメントと動的ボクセル解像度
- Authors: Jiawei Yao and Jusheng Zhang
- Abstract要約: DepthSSCはモノクロカメラのみをベースとしたセマンティックシーン補完手法である。
従来の手法で観察された空間的不整合や歪みの問題を緩和する。
複雑な3D構造の詳細をキャプチャーし、最先端のパフォーマンスを実現する効果を実証する。
- 参考スコア(独自算出の注目度): 0.4662017507844857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of 3D semantic scene completion with monocular cameras is gaining
increasing attention in the field of autonomous driving. Its objective is to
predict the occupancy status of each voxel in the 3D scene from partial image
inputs. Despite the existence of numerous methods, many of them overlook the
issue of accurate alignment between spatial and depth information. To address
this, we propose DepthSSC, an advanced method for semantic scene completion
solely based on monocular cameras. DepthSSC combines the ST-GF (Spatial
Transformation Graph Fusion) module with geometric-aware voxelization, enabling
dynamic adjustment of voxel resolution and considering the geometric complexity
of 3D space to ensure precise alignment between spatial and depth information.
This approach successfully mitigates spatial misalignment and distortion issues
observed in prior methods. Through evaluation on the SemanticKITTI dataset,
DepthSSC not only demonstrates its effectiveness in capturing intricate 3D
structural details but also achieves state-of-the-art performance. We believe
DepthSSC provides a fresh perspective on monocular camera-based 3D semantic
scene completion research and anticipate it will inspire further related
studies.
- Abstract(参考訳): 単眼カメラによる3次元セマンティックシーンの完成作業は、自動運転の分野で注目を集めている。
その目的は、部分的な画像入力から3dシーン内の各ボクセルの占有状況を予測することである。
多くの方法が存在するにも拘わらず、その多くは空間情報と深度情報の正確なアライメントの問題を見落としている。
そこで本研究では,単眼カメラのみをベースとするセマンティックシーン補完手法であるdeepsscを提案する。
DepthSSCは、ST-GF(Spatial Transformation Graph Fusion)モジュールと幾何学的なボクセル化を組み合わせ、ボクセル解像度の動的調整を可能にし、3次元空間の幾何学的複雑さを考慮して空間情報と深度情報の正確な整合性を確保する。
この手法は,従来の手法で観測された空間的ずれや歪みの問題を緩和する。
SemanticKITTIデータセットの評価を通じて、DepthSSCは複雑な3D構造の詳細をキャプチャする効果を示すだけでなく、最先端のパフォーマンスも達成している。
depthsscは、単眼カメラベースの3dセマンティックシーン補完研究の新しい視点を提供し、さらなる研究を刺激することを期待している。
関連論文リスト
- Revisiting Monocular 3D Object Detection from Scene-Level Depth Retargeting to Instance-Level Spatial Refinement [44.4805861813093]
モノクロ3Dオブジェクト検出は、正確な深さの欠如により困難である。
既存の深度支援ソリューションは依然として性能が劣っている。
深度適応型モノクル3次元物体検出ネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-26T10:51:50Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - MonoPGC: Monocular 3D Object Detection with Pixel Geometry Contexts [6.639648061168067]
我々は、リッチなPixel Geometry Contextsを備えた新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるMonoPGCを提案する。
我々は,局所的および大域的な深度幾何学的知識を視覚的特徴に注入するために,画素深度推定を補助タスクとして導入し,設計深度クロスアテンションピラミッドモジュール(DCPM)を設計する。
さらに,3次元空間位置と奥行き認識機能を効率よく統合するDSATを提案する。
論文 参考訳(メタデータ) (2023-02-21T09:21:58Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - MonoJSG: Joint Semantic and Geometric Cost Volume for Monocular 3D
Object Detection [10.377424252002792]
モノクル3D物体検出は正確な深度回復能力に欠ける。
ディープニューラルネットワーク(DNN)は、高レベルの学習機能からモノクルディープセンシングを可能にする。
深度誤差をモデル化するための共同意味量と幾何学的コスト容積を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:54:10Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。