論文の概要: NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space
- arxiv url: http://arxiv.org/abs/2309.14616v3
- Date: Wed, 11 Oct 2023 22:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 15:08:06.710007
- Title: NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space
- Title(参考訳): NDCシーン:正規化デバイス座標空間における単分子3次元セマンティックシーン補完
- Authors: Jiawei Yao, Chuming Li, Keqiang Sun, Yingjie Cai, Hao Li, Wanli Ouyang
and Hongsheng Li
- Abstract要約: SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
- 参考スコア(独自算出の注目度): 77.6067460464962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D Semantic Scene Completion (SSC) has garnered significant
attention in recent years due to its potential to predict complex semantics and
geometry shapes from a single image, requiring no 3D inputs. In this paper, we
identify several critical issues in current state-of-the-art methods, including
the Feature Ambiguity of projected 2D features in the ray to the 3D space, the
Pose Ambiguity of the 3D convolution, and the Computation Imbalance in the 3D
convolution across different depth levels. To address these problems, we devise
a novel Normalized Device Coordinates scene completion network (NDC-Scene) that
directly extends the 2D feature map to a Normalized Device Coordinates (NDC)
space, rather than to the world space directly, through progressive restoration
of the dimension of depth with deconvolution operations. Experiment results
demonstrate that transferring the majority of computation from the target 3D
space to the proposed normalized device coordinates space benefits monocular
SSC tasks. Additionally, we design a Depth-Adaptive Dual Decoder to
simultaneously upsample and fuse the 2D and 3D feature maps, further improving
overall performance. Our extensive experiments confirm that the proposed method
consistently outperforms state-of-the-art methods on both outdoor SemanticKITTI
and indoor NYUv2 datasets. Our code are available at
https://github.com/Jiawei-Yao0812/NDCScene.
- Abstract(参考訳): SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑な意味や幾何学的形状を予測し、3D入力を必要としないため、近年注目されている。
本稿では,3次元空間への投影された2次元特徴のあいまいさ,3次元畳み込みのポーズあいまいさ,奥行きの異なる3次元畳み込みにおける計算の不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
これらの問題に対処するために,デコンボリューション操作による深度次元の漸進的復元により,2次元特徴写像を世界空間に直接ではなく,正規化デバイスコーディネート(NDC)空間へ直接拡張する新しいシーンコンプリートネットワーク(NDC-Scene)を考案した。
実験の結果, 対象の3次元空間から提案する正規化デバイス座標への計算のほとんどを移動させることで, 単眼sscタスクが有効となることがわかった。
さらに,2次元特徴マップと3次元特徴マップを同時に重ね合わせて融合させる奥行き適応型デュアルデコーダの設計を行い,全体的な性能をさらに向上した。
提案手法は,屋外のセマンティックKITTIと屋内のNYUv2データセットの両方において,常に最先端の手法より優れていることを確認した。
私たちのコードはhttps://github.com/Jiawei-Yao0812/NDCSceneで公開されています。
関連論文リスト
- Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation [32.50849425431012]
マルチカメラとLiDARを備えた自動運転車では、高精度で堅牢な予測のために、マルチセンサー情報を統一された3D空間に集約することが重要である。
最近の手法は主にセンサキャリブレーションに依存する2D-to-3D変換に基づいて構築され,2D画像情報を3D空間に投影する。
本研究では,空間対応を暗黙的にモデル化するために,バニラ注意に基づく校正自由空間変換を提案する。
論文 参考訳(メタデータ) (2024-11-19T02:40:42Z) - Tri-Perspective View Decomposition for Geometry-Aware Depth Completion [24.98850285904668]
Tri-Perspective View Decomposition (TPVD)は、3D幾何学を明示的にモデル化できる新しいフレームワークである。
TPVDは元の点雲を3つの2Dビューに分解する。
TPVDは、KITTI、NYUv2、SUN RGBDの既存の手法より優れている。
論文 参考訳(メタデータ) (2024-03-22T07:45:50Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。