Fugu-MT 論文翻訳(概要): DepthSSC: Monocular 3D Semantic Scene Completion via Depth-Spatial Alignment and Voxel Adaptation

論文の概要: DepthSSC: Monocular 3D Semantic Scene Completion via Depth-Spatial Alignment and Voxel Adaptation

arxiv url: http://arxiv.org/abs/2311.17084v2
Date: Mon, 25 Nov 2024 23:13:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 18:31:37.433059
Title: DepthSSC: Monocular 3D Semantic Scene Completion via Depth-Spatial Alignment and Voxel Adaptation
Title（参考訳）: DepthSSC:Depth-Spatial AlignmentとVoxel Adaptationによる単眼3次元シーンコンプリート
Authors: Jiawei Yao, Jusheng Zhang, Xiaochao Pan, Tong Wu, Canran Xiao,
Abstract要約: 単眼カメラのみを用いたセマンティックシーン補完手法DepthSSCを提案する。 DepthSSCがGeometric-Aware Voxelization (GAV)とSpatial Transformation Graph Fusion (ST-GF)モジュールを統合 DepthSSCは複雑な3次元構造を効果的に捉え、最先端の性能を実現する。
参考スコア（独自算出の注目度）: 2.949710700293865
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The task of 3D semantic scene completion using monocular cameras is gaining significant attention in the field of autonomous driving. This task aims to predict the occupancy status and semantic labels of each voxel in a 3D scene from partial image inputs. Despite numerous existing methods, many face challenges such as inaccurately predicting object shapes and misclassifying object boundaries. To address these issues, we propose DepthSSC, an advanced method for semantic scene completion using only monocular cameras. DepthSSC integrates the Spatial Transformation Graph Fusion (ST-GF) module with Geometric-Aware Voxelization (GAV), enabling dynamic adjustment of voxel resolution to accommodate the geometric complexity of 3D space. This ensures precise alignment between spatial and depth information, effectively mitigating issues such as object boundary distortion and incorrect depth perception found in previous methods. Evaluations on the SemanticKITTI and SSCBench-KITTI-360 dataset demonstrate that DepthSSC not only captures intricate 3D structural details effectively but also achieves state-of-the-art performance.
Abstract（参考訳）: 単眼カメラを用いた3次元セマンティックシーンの完成作業は、自動運転の分野で大きな注目を集めている。本課題は,部分的な画像入力から3次元シーンにおける各ボクセルの占有状況とセマンティックラベルを予測することである。多くの既存手法にもかかわらず、オブジェクトの形状を不正確に予測したり、オブジェクトの境界を誤って分類したりといった多くの課題に直面している。これらの問題に対処するために,単眼カメラのみを用いたセマンティックシーン補完手法であるDepthSSCを提案する。 DepthSSCは、Spatial Transformation Graph Fusion (ST-GF)モジュールとGeometric-Aware Voxelization (GAV)を統合し、3次元空間の幾何学的複雑さに対応するためにボクセル解像度の動的調整を可能にする。これにより、空間情報と深度情報の正確なアライメントが保証され、オブジェクト境界歪みや従来手法で見られた不正確な深度知覚などの問題を効果的に緩和する。 SemanticKITTIとSSCBench-KITTI-360データセットの評価は、DepthSSCが複雑な3D構造の詳細を効果的に捉えているだけでなく、最先端のパフォーマンスも達成していることを示している。

関連論文リスト

VLScene: Vision-Language Guidance Distillation for Camera-Based 3D Semantic Scene Completion [35.34118012715217]
カメラベースの3Dセマンティックシーン補完(SSC)は、自律運転のための密集した幾何学的およびセマンティックな知覚を提供する。既存の手法では、オブジェクト間の明示的なセマンティックモデリングが欠如しており、3Dセマンティックコンテキストに対する認識が制限されている。 VLScene: Vision-Language Guidance Distillation for Camera-based 3D Semantic Scene Completionを提案する。
論文参考訳（メタデータ） (2025-03-08T13:40:52Z)
Revisiting Monocular 3D Object Detection with Depth Thickness Field [44.4805861813093]
モノクロ3次元物体検出のためのシーン・ツー・インスタンス深度適応ネットワークであるMonoDTFを提案する。このフレームワークは主にSDR(Scene-Level Depth Retargeting)モジュールとISR(Instance-Level Spatial Refinement)モジュールで構成される。後者は、インスタンスの誘導によりボクセル空間を洗練し、深さ厚さ場の3Dインスタンス認識能力を向上する。
論文参考訳（メタデータ） (2024-12-26T10:51:50Z)
GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文参考訳（メタデータ） (2024-05-17T07:31:20Z)
DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-03-09T12:22:46Z)
NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文参考訳（メタデータ） (2023-09-26T02:09:52Z)
R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras [106.52409577316389]
R3D3は高密度3次元再構成とエゴモーション推定のためのマルチカメラシステムである。提案手法は,複数のカメラからの時空間情報と単眼深度補正を利用する。この設計により、困難で動的な屋外環境の密集した一貫した3次元再構成が可能になる。
論文参考訳（メタデータ） (2023-08-28T17:13:49Z)
Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文参考訳（メタデータ） (2023-08-24T17:25:36Z)
FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文参考訳（メタデータ） (2023-08-10T17:55:02Z)
Parametric Depth Based Feature Representation Learning for Object Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文参考訳（メタデータ） (2023-07-09T06:07:22Z)
MonoPGC: Monocular 3D Object Detection with Pixel Geometry Contexts [6.639648061168067]
我々は、リッチなPixel Geometry Contextsを備えた新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるMonoPGCを提案する。我々は,局所的および大域的な深度幾何学的知識を視覚的特徴に注入するために,画素深度推定を補助タスクとして導入し,設計深度クロスアテンションピラミッドモジュール(DCPM)を設計する。さらに,3次元空間位置と奥行き認識機能を効率よく統合するDSATを提案する。
論文参考訳（メタデータ） (2023-02-21T09:21:58Z)
Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2022-07-26T15:48:46Z)
Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。 DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文参考訳（メタデータ） (2022-05-23T23:05:07Z)
Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文参考訳（メタデータ） (2021-07-29T12:30:39Z)
MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。 MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。 KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文参考訳（メタデータ） (2021-04-18T10:07:52Z)
Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文参考訳（メタデータ） (2021-03-23T12:54:43Z)
3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文参考訳（メタデータ） (2020-03-31T09:33:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。