論文の概要: Virtual Sparse Convolution for Multimodal 3D Object Detection
- arxiv url: http://arxiv.org/abs/2303.02314v1
- Date: Sat, 4 Mar 2023 04:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 20:23:14.117124
- Title: Virtual Sparse Convolution for Multimodal 3D Object Detection
- Title(参考訳): マルチモーダル3次元物体検出のための仮想スパース畳み込み
- Authors: Hai Wu, Chenglu Wen, Shaoshuai Shi, Xin Li, Cheng Wang
- Abstract要約: 本稿では,仮想点に基づく3Dオブジェクト検出のための高速かつ効果的なバックボーンであるVirConvNetを提案する。
VirConv は StVD (Stochastic Voxel Discard) と NRConv (Noise-Resistant Submanifold Convolution) の2つの重要な設計で構成されている。
- 参考スコア(独自算出の注目度): 27.598858171754358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, virtual/pseudo-point-based 3D object detection that seamlessly
fuses RGB images and LiDAR data by depth completion has gained great attention.
However, virtual points generated from an image are very dense, introducing a
huge amount of redundant computation during detection. Meanwhile, noises
brought by inaccurate depth completion significantly degrade detection
precision. This paper proposes a fast yet effective backbone, termed
VirConvNet, based on a new operator VirConv (Virtual Sparse Convolution), for
virtual-point-based 3D object detection. VirConv consists of two key designs:
(1) StVD (Stochastic Voxel Discard) and (2) NRConv (Noise-Resistant Submanifold
Convolution). StVD alleviates the computation problem by discarding large
amounts of nearby redundant voxels. NRConv tackles the noise problem by
encoding voxel features in both 2D image and 3D LiDAR space. By integrating
VirConv, we first develop an efficient pipeline VirConv-L based on an early
fusion design. Then, we build a high-precision pipeline VirConv-T based on a
transformed refinement scheme. Finally, we develop a semi-supervised pipeline
VirConv-S based on a pseudo-label framework. On the KITTI car 3D detection test
leaderboard, our VirConv-L achieves 85% AP with a fast running speed of 56ms.
Our VirConv-T and VirConv-S attains a high-precision of 86.3% and 87.2% AP, and
currently rank 2nd and 1st, respectively. The code is available at
https://github.com/hailanyi/VirConv.
- Abstract(参考訳): 近年,RGB画像とLiDARデータを深度でシームレスに融合する仮想・擬似点に基づく3Dオブジェクト検出が注目されている。
しかし、画像から生成される仮想ポイントは非常に密集しており、検出中に大量の冗長な計算をもたらす。
一方、不正確な深度完了によるノイズは検出精度を著しく低下させる。
本稿では,仮想点に基づく3次元物体検出のための新しい演算子 virconv (virtual sparse convolution) に基づいて,高速かつ効果的なバックボーンであるvirconvnetを提案する。
VirConvは、(1)StVD(Stochastic Voxel Discard)と(2)NRConv(Noise-Resistant Submanifold Convolution)の2つの主要な設計で構成されている。
StVDは大量の冗長なボクセルを捨てることで計算問題を緩和する。
NRConvは2次元画像と3次元LiDAR空間のボクセル特徴を符号化することでノイズ問題に取り組む。
VirConvを統合することで、初期の融合設計に基づく効率的なパイプラインVirConv-Lを開発した。
次に,変形したリファインメントスキームに基づいて高精度パイプラインvirconv-tを構築する。
最後に,擬似ラベルフレームワークに基づく半教師付きパイプライン VirConv-S を開発した。
KITTIの3D検出テストリーダーボードでは、VirConv-Lは高速走行速度56msで85%APを達成した。
我々のVirConv-TとVirConv-Sの精度は86.3%と87.2%で、それぞれ2位と1位となっている。
コードはhttps://github.com/hailanyi/virconvで入手できる。
関連論文リスト
- NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera
Videos [20.51396212498941]
SparseBEVは完全にスパースな3Dオブジェクト検出器で、密度の高い物体よりも優れています。
nuScenesのテスト分割で、SparseBEVは67.5 NDSの最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-18T02:11:01Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer [75.2251801053839]
単段3次元検出用ポイント・ボクセル変換器(PVT-SSD)を提案する。
本稿では,voxel から長時間のコンテキストを安価に取得できる Point-Voxel Transformer (PVT) モジュールを提案する。
いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2023-05-11T07:37:15Z) - DualConv: Dual Convolutional Kernels for Lightweight Deep Neural
Networks [31.520543731423455]
本稿では,軽量深層ニューラルネットワーク構築のためのデュアル畳み込みカーネル(DualConv)を提案する。
これらのネットワークアーキテクチャは、他の多くのタスクのバックボーンを形成するため、分類のためのDualConvを広範囲にテストしています。
実験の結果、DualConvは構造的革新と組み合わせることで、ディープニューラルネットワークの計算コストとパラメータの数を著しく削減することがわかった。
論文 参考訳(メタデータ) (2022-02-15T14:47:13Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。