論文の概要: PV-SSD: A Multi-Modal Point Cloud Feature Fusion Method for Projection Features and Variable Receptive Field Voxel Features
- arxiv url: http://arxiv.org/abs/2308.06791v6
- Date: Sat, 13 Apr 2024 14:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:57:12.062468
- Title: PV-SSD: A Multi-Modal Point Cloud Feature Fusion Method for Projection Features and Variable Receptive Field Voxel Features
- Title(参考訳): PV-SSD: 射影特徴と可変場ボクセル特徴のためのマルチモーダルポイントクラウド特徴融合法
- Authors: Yongxin Shao, Aihong Tan, Zhetao Sun, Enhui Zheng, Tianhong Yan, Peng Liao,
- Abstract要約: 非常にスパースな3Dデータからのリアルタイム推論は、非常に難しい課題だ。
この問題に対処するため、典型的なアプローチのクラスは、点雲のキャストを正規のデータ表現に変換する。
本稿では,射影特徴と可変受容野ボクセル特徴に対するマルチモーダル点雲特徴融合法を提案する。
- 参考スコア(独自算出の注目度): 1.5338480419018068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR-based 3D object detection and classification is crucial for autonomous driving. However, real-time inference from extremely sparse 3D data is a formidable challenge. To address this problem, a typical class of approaches transforms the point cloud cast into a regular data representation (voxels or projection maps). Then, it performs feature extraction with convolutional neural networks. However, such methods often result in a certain degree of information loss due to down-sampling or over-compression of feature information. This paper proposes a multi-modal point cloud feature fusion method for projection features and variable receptive field voxel features (PV-SSD) based on projection and variable voxelization to solve the information loss problem. We design a two-branch feature extraction structure with a 2D convolutional neural network to extract the point cloud's projection features in bird's-eye view to focus on the correlation between local features. A voxel feature extraction branch is used to extract local fine-grained features. Meanwhile, we propose a voxel feature extraction method with variable sensory fields to reduce the information loss of voxel branches due to downsampling. It avoids missing critical point information by selecting more useful feature points based on feature point weights for the detection task. In addition, we propose a multi-modal feature fusion module for point clouds. To validate the effectiveness of our method, we tested it on the KITTI dataset and ONCE dataset.
- Abstract(参考訳): LiDARに基づく3Dオブジェクトの検出と分類は、自動運転に不可欠である。
しかし、非常にスパースな3Dデータからのリアルタイム推論は、非常に難しい課題である。
この問題に対処するために、典型的なアプローチのクラスは、点雲のキャストを正規データ表現(ボクセルや投影マップ)に変換する。
そして、畳み込みニューラルネットワークを用いて特徴抽出を行う。
しかし、そのような手法は、ダウンサンプリングや過剰な特徴情報の圧縮によって、ある程度の情報損失をもたらすことが多い。
本稿では,情報損失問題の解法として,投射特性と可変受容野ボクセル特徴(PV-SSD)をベースとしたマルチモーダル点雲特徴融合法を提案する。
本研究では,2次元畳み込みニューラルネットワークを用いた2枝特徴抽出構造を設計し,局所特徴間の相関に着目した鳥眼視で点雲の投影特徴を抽出する。
ボクセル特徴抽出枝を用いて局所的な微細な特徴を抽出する。
一方, センサの可変な特徴抽出手法を提案し, ダウンサンプリングによるボクセル枝の情報損失を低減する。
検出タスクの特徴点重みに基づいて、より有用な特徴点を選択することで、臨界点情報の欠落を回避する。
さらに,ポイントクラウドのためのマルチモーダル機能融合モジュールを提案する。
提案手法の有効性を検証するため,KITTIデータセットとONCEデータセットを用いて実験を行った。
関連論文リスト
- Self-Supervised Scene Flow Estimation with Point-Voxel Fusion and Surface Representation [30.355128117680444]
シーンフロー推定は、点雲の2つの連続するフレーム間の点の3次元運動場を生成することを目的としている。
既存の点ベースの手法は点雲の不規則性を無視し、長距離依存を捉えるのが困難である。
本稿では,分散グリッドアテンションとシフトウインドウ戦略に基づくボクセルブランチを用いて,長距離依存性を捕捉するポイントボクセル融合法を提案する。
論文 参考訳(メタデータ) (2024-10-17T09:05:15Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - PV-RCNN++: Semantical Point-Voxel Feature Interaction for 3D Object
Detection [22.6659359032306]
本稿では,PV-RCNN++と呼ばれる意味的特徴相互作用を用いた新しいオブジェクト検出ネットワークを提案する。
KITTIデータセットの実験によると、PV-RCNN++は81.60$%$, 40.18$%$, 68.21$%$ 3D mAP on Car, Pedestrian, Cyclistで達成され、最先端技術と同等またはそれ以上のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-08-29T08:14:00Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - BIMS-PU: Bi-Directional and Multi-Scale Point Cloud Upsampling [60.257912103351394]
我々はBIMS-PUと呼ばれる新しいポイント・クラウド・アップサンプリング・パイプラインを開発した。
対象のサンプリング因子を小さな因子に分解することにより,アップ/ダウンサンプリング手順をいくつかのアップ/ダウンサンプリングサブステップに分解する。
提案手法は最先端手法よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-25T13:13:37Z) - Point Cloud Semantic Segmentation using Multi Scale Sparse Convolution
Neural Network [0.0]
本稿では,マルチスケール超スパース畳み込みに基づく特徴抽出モジュールと,チャネルアテンションに基づく特徴選択モジュールを提案する。
マルチスケールのスパース畳み込みを導入することで、ネットワークは異なるサイズの畳み込みカーネルに基づいてよりリッチな特徴情報をキャプチャできる。
論文 参考訳(メタデータ) (2022-05-03T15:01:20Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z) - D3Feat: Joint Learning of Dense Detection and Description of 3D Local
Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。
本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。
本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-03-06T12:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。