Fugu-MT 論文翻訳(概要): NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space

論文の概要: NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space

arxiv url: http://arxiv.org/abs/2309.14616v3
Date: Wed, 11 Oct 2023 22:15:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-15 15:08:06.710007
Title: NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space
Title（参考訳）: NDCシーン:正規化デバイス座標空間における単分子3次元セマンティックシーン補完
Authors: Jiawei Yao, Chuming Li, Keqiang Sun, Yingjie Cai, Hao Li, Wanli Ouyang and Hongsheng Li
Abstract要約: SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
参考スコア（独自算出の注目度）: 77.6067460464962
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Monocular 3D Semantic Scene Completion (SSC) has garnered significant attention in recent years due to its potential to predict complex semantics and geometry shapes from a single image, requiring no 3D inputs. In this paper, we identify several critical issues in current state-of-the-art methods, including the Feature Ambiguity of projected 2D features in the ray to the 3D space, the Pose Ambiguity of the 3D convolution, and the Computation Imbalance in the 3D convolution across different depth levels. To address these problems, we devise a novel Normalized Device Coordinates scene completion network (NDC-Scene) that directly extends the 2D feature map to a Normalized Device Coordinates (NDC) space, rather than to the world space directly, through progressive restoration of the dimension of depth with deconvolution operations. Experiment results demonstrate that transferring the majority of computation from the target 3D space to the proposed normalized device coordinates space benefits monocular SSC tasks. Additionally, we design a Depth-Adaptive Dual Decoder to simultaneously upsample and fuse the 2D and 3D feature maps, further improving overall performance. Our extensive experiments confirm that the proposed method consistently outperforms state-of-the-art methods on both outdoor SemanticKITTI and indoor NYUv2 datasets. Our code are available at https://github.com/Jiawei-Yao0812/NDCScene.
Abstract（参考訳）: SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑な意味や幾何学的形状を予測し、3D入力を必要としないため、近年注目されている。本稿では,3次元空間への投影された2次元特徴のあいまいさ,3次元畳み込みのポーズあいまいさ,奥行きの異なる3次元畳み込みにおける計算の不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。これらの問題に対処するために,デコンボリューション操作による深度次元の漸進的復元により,2次元特徴写像を世界空間に直接ではなく,正規化デバイスコーディネート(NDC)空間へ直接拡張する新しいシーンコンプリートネットワーク(NDC-Scene)を考案した。実験の結果, 対象の3次元空間から提案する正規化デバイス座標への計算のほとんどを移動させることで, 単眼sscタスクが有効となることがわかった。さらに,2次元特徴マップと3次元特徴マップを同時に重ね合わせて融合させる奥行き適応型デュアルデコーダの設計を行い,全体的な性能をさらに向上した。提案手法は,屋外のセマンティックKITTIと屋内のNYUv2データセットの両方において,常に最先端の手法より優れていることを確認した。私たちのコードはhttps://github.com/Jiawei-Yao0812/NDCSceneで公開されています。

関連論文リスト

Global-Aware Monocular Semantic Scene Completion with State Space Models [25.621011183332094]
Monocular Semantic Scene Completion (MonoSSC)は、単一の画像から3D環境を再構成し、解釈する。既存の手法は、しばしば畳み込みネットワーク(CNN)の局所受容領域によって制約される。 GA-MonoSSCは2次元画像領域と3次元空間の両方のグローバルコンテキストを効果的にキャプチャするMonoSSCのハイブリッドアーキテクチャである。
論文参考訳（メタデータ） (2025-03-09T11:55:40Z)
Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation [32.50849425431012]
マルチカメラとLiDARを備えた自動運転車では、高精度で堅牢な予測のために、マルチセンサー情報を統一された3D空間に集約することが重要である。最近の手法は主にセンサキャリブレーションに依存する2D-to-3D変換に基づいて構築され,2D画像情報を3D空間に投影する。本研究では,空間対応を暗黙的にモデル化するために,バニラ注意に基づく校正自由空間変換を提案する。
論文参考訳（メタデータ） (2024-11-19T02:40:42Z)
Tri-Perspective View Decomposition for Geometry-Aware Depth Completion [24.98850285904668]
Tri-Perspective View Decomposition (TPVD)は、3D幾何学を明示的にモデル化できる新しいフレームワークである。 TPVDは元の点雲を3つの2Dビューに分解する。 TPVDは、KITTI、NYUv2、SUN RGBDの既存の手法より優れている。
論文参考訳（メタデータ） (2024-03-22T07:45:50Z)
Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文参考訳（メタデータ） (2023-06-30T17:34:06Z)
Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文参考訳（メタデータ） (2023-02-27T17:56:18Z)
Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-12T06:25:11Z)
FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文参考訳（メタデータ） (2021-04-22T09:35:35Z)
Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文参考訳（メタデータ） (2020-11-29T12:56:19Z)
Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文参考訳（メタデータ） (2020-08-04T13:56:19Z)
Implicit Functions in Feature Space for 3D Shape Reconstruction and Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。 IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文参考訳（メタデータ） (2020-03-03T11:14:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。