論文の概要: *: Improving the 3D detector by introducing Voxel2Pillar feature encoding and extracting multi-scale features
- arxiv url: http://arxiv.org/abs/2405.09828v3
- Date: Fri, 08 Nov 2024 03:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:22.720874
- Title: *: Improving the 3D detector by introducing Voxel2Pillar feature encoding and extracting multi-scale features
- Title(参考訳): ※Voxel2Pillar特徴符号化とマルチスケール特徴抽出による3D検出器の改良
- Authors: Xusheng Li, Chengliang Wang, Shumao Wang, Zhuo Zeng, Ji Liu,
- Abstract要約: 現在の3D検出器は、大規模な特徴を得るのに特徴ピラミッドネットワークを使うのが一般的である。
柱ベースのスキームはボクセル計算よりもはるかに少ないため、リアルタイム3D検出器の構築に適している。
よりリッチなポイントクラウド機能を備えた柱構築にスパース畳み込みを用いたVoxel2Pillar機能符号化を提案する。
- 参考スコア(独自算出の注目度): 9.15169530632709
- License:
- Abstract: The multi-line LiDAR is widely used in autonomous vehicles, so point cloud-based 3D detectors are essential for autonomous driving. Extracting rich multi-scale features is crucial for point cloud-based 3D detectors in autonomous driving due to significant differences in the size of different types of objects. However, because of the real-time requirements, large-size convolution kernels are rarely used to extract large-scale features in the backbone. Current 3D detectors commonly use feature pyramid networks to obtain large-scale features; however, some objects containing fewer point clouds are further lost during down-sampling, resulting in degraded performance. Since pillar-based schemes require much less computation than voxel-based schemes, they are more suitable for constructing real-time 3D detectors. Hence, we propose the *, a pillar-based scheme. We redesigned the feature encoding, the backbone, and the neck of the 3D detector. We propose the Voxel2Pillar feature encoding, which uses a sparse convolution constructor to construct pillars with richer point cloud features, especially height features. The Voxel2Pillar adds more learnable parameters to the feature encoding, enabling the initial pillars to have higher performance ability. We extract multi-scale and large-scale features in the proposed fully sparse backbone, which does not utilize large-size convolutional kernels; the backbone consists of the proposed multi-scale feature extraction module. The neck consists of the proposed sparse ConvNeXt, whose simple structure significantly improves the performance. We validate the effectiveness of the proposed * on the Waymo Open Dataset, and the object detection accuracy for vehicles, pedestrians, and cyclists is improved. We also verify the effectiveness of each proposed module in detail through ablation studies.
- Abstract(参考訳): マルチラインのLiDARは自動運転車で広く使われているため、ポイントクラウドベースの3D検出器は自動運転に不可欠である。
リッチなマルチスケール特徴の抽出は、様々な種類の物体のサイズに大きな違いがあるため、自律運転におけるポイントクラウドベースの3D検出器にとって重要である。
しかし、リアルタイムの要求のため、大規模な畳み込みカーネルはバックボーンで大規模な特徴を引き出すのにはほとんど使われない。
現行の3D検出器は、大規模な特徴を得るために特徴ピラミッドネットワークを一般的に使用しているが、ダウンサンプリング中に点雲が少ないいくつかの物体が失われ、性能が低下する。
柱ベースのスキームはボクセルベースのスキームよりもはるかに少ない計算を必要とするため、リアルタイム3D検出器の構築に適している。
そこで本研究では,柱型スキーム*を提案する。
われわれは3Dディテクターのエンコーディング、バックボーン、ネックを再設計した。
本稿では、スパース畳み込みコンストラクタを用いて、よりリッチなポイントクラウド機能、特に高さ機能を備えた柱を構築するVoxel2Pillar機能符号化法を提案する。
Voxel2Pillarは、機能のエンコーディングにより学習可能なパラメータを追加し、初期ピラーのパフォーマンスを向上する。
提案する完全スパースバックボーンでは,大規模な畳み込みカーネルを使用せず,マルチスケールかつ大規模に特徴を抽出し,そのバックボーンはマルチスケール特徴抽出モジュールで構成されている。
ネックは提案されたスパースConvNeXtで構成されており、単純な構造で性能が大幅に向上している。
Waymo Open Datasetにおける提案*の有効性を検証し,車両,歩行者,自転車の物体検出精度を改善した。
また,各モジュールの有効性をアブレーション研究により詳細に検証した。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - HEDNet: A Hierarchical Encoder-Decoder Network for 3D Object Detection
in Point Clouds [19.1921315424192]
ポイントクラウドにおける3Dオブジェクト検出は、自律運転システムにとって重要である。
3Dオブジェクト検出における主な課題は、3Dシーン内の点のスパース分布に起因する。
本稿では3次元オブジェクト検出のための階層型エンコーダデコーダネットワークであるHEDNetを提案する。
論文 参考訳(メタデータ) (2023-10-31T07:32:08Z) - Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection [49.324070632356296]
我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
論文 参考訳(メタデータ) (2023-04-06T05:00:58Z) - PillarNet: Real-Time and High-Performance Pillar-based 3D Object
Detection [4.169126928311421]
リアルタイムかつ高性能な3Dオブジェクト検出は、自動運転にとって重要な課題である。
最近のトップパフォーマンスの3Dオブジェクト検出器は、主に点ベースまたは3Dボクセルベースの畳み込みに依存している。
我々はPillarNetと呼ばれるリアルタイムかつ高性能な柱型検出器を開発した。
論文 参考訳(メタデータ) (2022-05-16T00:14:50Z) - PiFeNet: Pillar-Feature Network for Real-Time 3D Pedestrian Detection
from Point Cloud [64.12626752721766]
点雲からの歩行者検出に有効なリアルタイム3D検出器であるPiFeNetを提案する。
歩行者を検知する際の3次元物体検出フレームワークが直面する課題として, 柱の特徴の少ない点と, 点群における歩行者の占有面積の小さい点があげられる。
提案手法は,26fps/秒(FPS)で走行しながら,KITTI歩行者BEVと3Dリーダーボードで第1位にランクされ,Nuscenes検出ベンチマークの最先端性能を実現している。
論文 参考訳(メタデータ) (2021-12-31T13:41:37Z) - Improved Pillar with Fine-grained Feature for 3D Object Detection [23.348710029787068]
LiDAR点雲を用いた3次元物体検出は、自律走行知覚モジュールにおいて重要な役割を果たす。
既存の点ベースの手法は、生の点が多すぎるため、速度要件に到達するのが困難である。
PointPillarのような2Dグリッドベースの手法は、単純な2D畳み込みに基づいて、安定的で効率的な速度を容易に達成できる。
論文 参考訳(メタデータ) (2021-10-12T14:53:14Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - Reconfigurable Voxels: A New Representation for LiDAR-Based Point Clouds [76.52448276587707]
本稿では,3次元点群から表現を構成する新しい手法であるReconfigurable Voxelsを提案する。
具体的には,各地区を一定数のボクセルで適応的にカバーするランダムウォーク方式を考案する。
この手法は,特に疎水領域において,ボクセル特性の安定性を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-04-06T15:07:16Z) - D3Feat: Joint Learning of Dense Detection and Description of 3D Local
Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。
本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。
本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-03-06T12:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。