論文の概要: DepthSSC: Monocular 3D Semantic Scene Completion via Depth-Spatial Alignment and Voxel Adaptation
- arxiv url: http://arxiv.org/abs/2311.17084v2
- Date: Mon, 25 Nov 2024 23:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:23:40.234349
- Title: DepthSSC: Monocular 3D Semantic Scene Completion via Depth-Spatial Alignment and Voxel Adaptation
- Title(参考訳): DepthSSC:Depth-Spatial AlignmentとVoxel Adaptationによる単眼3次元シーンコンプリート
- Authors: Jiawei Yao, Jusheng Zhang, Xiaochao Pan, Tong Wu, Canran Xiao,
- Abstract要約: 単眼カメラのみを用いたセマンティックシーン補完手法DepthSSCを提案する。
DepthSSCがGeometric-Aware Voxelization (GAV)とSpatial Transformation Graph Fusion (ST-GF)モジュールを統合
DepthSSCは複雑な3次元構造を効果的に捉え、最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 2.949710700293865
- License:
- Abstract: The task of 3D semantic scene completion using monocular cameras is gaining significant attention in the field of autonomous driving. This task aims to predict the occupancy status and semantic labels of each voxel in a 3D scene from partial image inputs. Despite numerous existing methods, many face challenges such as inaccurately predicting object shapes and misclassifying object boundaries. To address these issues, we propose DepthSSC, an advanced method for semantic scene completion using only monocular cameras. DepthSSC integrates the Spatial Transformation Graph Fusion (ST-GF) module with Geometric-Aware Voxelization (GAV), enabling dynamic adjustment of voxel resolution to accommodate the geometric complexity of 3D space. This ensures precise alignment between spatial and depth information, effectively mitigating issues such as object boundary distortion and incorrect depth perception found in previous methods. Evaluations on the SemanticKITTI and SSCBench-KITTI-360 dataset demonstrate that DepthSSC not only captures intricate 3D structural details effectively but also achieves state-of-the-art performance.
- Abstract(参考訳): 単眼カメラを用いた3次元セマンティックシーンの完成作業は、自動運転の分野で大きな注目を集めている。
本課題は,部分的な画像入力から3次元シーンにおける各ボクセルの占有状況とセマンティックラベルを予測することである。
多くの既存手法にもかかわらず、オブジェクトの形状を不正確に予測したり、オブジェクトの境界を誤って分類したりといった多くの課題に直面している。
これらの問題に対処するために,単眼カメラのみを用いたセマンティックシーン補完手法であるDepthSSCを提案する。
DepthSSCは、Spatial Transformation Graph Fusion (ST-GF)モジュールとGeometric-Aware Voxelization (GAV)を統合し、3次元空間の幾何学的複雑さに対応するためにボクセル解像度の動的調整を可能にする。
これにより、空間情報と深度情報の正確なアライメントが保証され、オブジェクト境界歪みや従来手法で見られた不正確な深度知覚などの問題を効果的に緩和する。
SemanticKITTIとSSCBench-KITTI-360データセットの評価は、DepthSSCが複雑な3D構造の詳細を効果的に捉えているだけでなく、最先端のパフォーマンスも達成していることを示している。
関連論文リスト
- DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras [106.52409577316389]
R3D3は高密度3次元再構成とエゴモーション推定のためのマルチカメラシステムである。
提案手法は,複数のカメラからの時空間情報と単眼深度補正を利用する。
この設計により、困難で動的な屋外環境の密集した一貫した3次元再構成が可能になる。
論文 参考訳(メタデータ) (2023-08-28T17:13:49Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - MonoPGC: Monocular 3D Object Detection with Pixel Geometry Contexts [6.639648061168067]
我々は、リッチなPixel Geometry Contextsを備えた新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるMonoPGCを提案する。
我々は,局所的および大域的な深度幾何学的知識を視覚的特徴に注入するために,画素深度推定を補助タスクとして導入し,設計深度クロスアテンションピラミッドモジュール(DCPM)を設計する。
さらに,3次元空間位置と奥行き認識機能を効率よく統合するDSATを提案する。
論文 参考訳(メタデータ) (2023-02-21T09:21:58Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-04-18T10:07:52Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。