Fugu-MT 論文翻訳(概要): *: Improving the 3D detector by introducing Voxel2Pillar feature encoding and extracting multi-scale features

論文の概要: *: Improving the 3D detector by introducing Voxel2Pillar feature encoding and extracting multi-scale features

arxiv url: http://arxiv.org/abs/2405.09828v3
Date: Fri, 08 Nov 2024 03:19:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.419132
Title: *: Improving the 3D detector by introducing Voxel2Pillar feature encoding and extracting multi-scale features
Title（参考訳）: ※Voxel2Pillar特徴符号化とマルチスケール特徴抽出による3D検出器の改良
Authors: Xusheng Li, Chengliang Wang, Shumao Wang, Zhuo Zeng, Ji Liu,
Abstract要約: 現在の3D検出器は、大規模な特徴を得るのに特徴ピラミッドネットワークを使うのが一般的である。柱ベースのスキームはボクセル計算よりもはるかに少ないため、リアルタイム3D検出器の構築に適している。よりリッチなポイントクラウド機能を備えた柱構築にスパース畳み込みを用いたVoxel2Pillar機能符号化を提案する。
参考スコア（独自算出の注目度）: 9.15169530632709
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The multi-line LiDAR is widely used in autonomous vehicles, so point cloud-based 3D detectors are essential for autonomous driving. Extracting rich multi-scale features is crucial for point cloud-based 3D detectors in autonomous driving due to significant differences in the size of different types of objects. However, because of the real-time requirements, large-size convolution kernels are rarely used to extract large-scale features in the backbone. Current 3D detectors commonly use feature pyramid networks to obtain large-scale features; however, some objects containing fewer point clouds are further lost during down-sampling, resulting in degraded performance. Since pillar-based schemes require much less computation than voxel-based schemes, they are more suitable for constructing real-time 3D detectors. Hence, we propose the *, a pillar-based scheme. We redesigned the feature encoding, the backbone, and the neck of the 3D detector. We propose the Voxel2Pillar feature encoding, which uses a sparse convolution constructor to construct pillars with richer point cloud features, especially height features. The Voxel2Pillar adds more learnable parameters to the feature encoding, enabling the initial pillars to have higher performance ability. We extract multi-scale and large-scale features in the proposed fully sparse backbone, which does not utilize large-size convolutional kernels; the backbone consists of the proposed multi-scale feature extraction module. The neck consists of the proposed sparse ConvNeXt, whose simple structure significantly improves the performance. We validate the effectiveness of the proposed * on the Waymo Open Dataset, and the object detection accuracy for vehicles, pedestrians, and cyclists is improved. We also verify the effectiveness of each proposed module in detail through ablation studies.
Abstract（参考訳）: マルチラインのLiDARは自動運転車で広く使われているため、ポイントクラウドベースの3D検出器は自動運転に不可欠である。リッチなマルチスケール特徴の抽出は、様々な種類の物体のサイズに大きな違いがあるため、自律運転におけるポイントクラウドベースの3D検出器にとって重要である。しかし、リアルタイムの要求のため、大規模な畳み込みカーネルはバックボーンで大規模な特徴を引き出すのにはほとんど使われない。現行の3D検出器は、大規模な特徴を得るために特徴ピラミッドネットワークを一般的に使用しているが、ダウンサンプリング中に点雲が少ないいくつかの物体が失われ、性能が低下する。柱ベースのスキームはボクセルベースのスキームよりもはるかに少ない計算を必要とするため、リアルタイム3D検出器の構築に適している。そこで本研究では,柱型スキーム*を提案する。われわれは3Dディテクターのエンコーディング、バックボーン、ネックを再設計した。本稿では、スパース畳み込みコンストラクタを用いて、よりリッチなポイントクラウド機能、特に高さ機能を備えた柱を構築するVoxel2Pillar機能符号化法を提案する。 Voxel2Pillarは、機能のエンコーディングにより学習可能なパラメータを追加し、初期ピラーのパフォーマンスを向上する。提案する完全スパースバックボーンでは,大規模な畳み込みカーネルを使用せず,マルチスケールかつ大規模に特徴を抽出し,そのバックボーンはマルチスケール特徴抽出モジュールで構成されている。ネックは提案されたスパースConvNeXtで構成されており、単純な構造で性能が大幅に向上している。 Waymo Open Datasetにおける提案*の有効性を検証し,車両,歩行者,自転車の物体検出精度を改善した。また,各モジュールの有効性をアブレーション研究により詳細に検証した。

関連論文リスト

GO-N3RDet: Geometry Optimized NeRF-enhanced 3D Object Detector [22.82676897012763]
GO-N3RDet(GO-N3RDet)は、ニューラルレイディアンスフィールドによって強化されたシーンジオメトリ最適化されたマルチビュー3Dオブジェクト検出器である。多視点特徴を融合させるために,独自の3次元位置情報埋め込みボクセル最適化機構を導入する。我々のユニークなモジュールは、NeRFベースのマルチビュー3D検出において、新しい最先端状態を確立するエンドツーエンドのニューラルネットワークを相乗的に形成する。
論文参考訳（メタデータ） (2025-03-19T13:51:00Z)
SparseVoxFormer: Sparse Voxel-based Transformer for Multi-modal 3D Object Detection [12.941263635455915]
従来の3Dオブジェクト検出手法では,Bird's Eye View (BEV) 空間を中間特徴表現として用いた。本稿では,LiDAR点クラウドデータのスパース性に着目した。 SparseVoxFormerと呼ばれる3次元オブジェクト検出のための新しいスパースボクセルベースのトランスフォーマーネットワークを導入する。
論文参考訳（メタデータ） (2025-03-11T06:52:25Z)
Multi-scale Feature Fusion with Point Pyramid for 3D Object Detection [18.41721888099563]
本稿では,POP-RCNN(Point Pyramid RCNN)を提案する。提案手法は, 様々な既存フレームワークに適用して, 特に長距離検出において, 特徴の豊かさを高めることができる。
論文参考訳（メタデータ） (2024-09-06T20:13:14Z)
PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。 PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。 PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文参考訳（メタデータ） (2024-08-26T19:43:01Z)
HEDNet: A Hierarchical Encoder-Decoder Network for 3D Object Detection in Point Clouds [19.1921315424192]
ポイントクラウドにおける3Dオブジェクト検出は、自律運転システムにとって重要である。 3Dオブジェクト検出における主な課題は、3Dシーン内の点のスパース分布に起因する。本稿では3次元オブジェクト検出のための階層型エンコーダデコーダネットワークであるHEDNetを提案する。
論文参考訳（メタデータ） (2023-10-31T07:32:08Z)
3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文参考訳（メタデータ） (2023-05-05T17:57:04Z)
CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文参考訳（メタデータ） (2022-10-09T13:38:48Z)
PillarNet: Real-Time and High-Performance Pillar-based 3D Object Detection [4.169126928311421]
リアルタイムかつ高性能な3Dオブジェクト検出は、自動運転にとって重要な課題である。最近のトップパフォーマンスの3Dオブジェクト検出器は、主に点ベースまたは3Dボクセルベースの畳み込みに依存している。我々はPillarNetと呼ばれるリアルタイムかつ高性能な柱型検出器を開発した。
論文参考訳（メタデータ） (2022-05-16T00:14:50Z)
PiFeNet: Pillar-Feature Network for Real-Time 3D Pedestrian Detection from Point Cloud [64.12626752721766]
点雲からの歩行者検出に有効なリアルタイム3D検出器であるPiFeNetを提案する。歩行者を検知する際の3次元物体検出フレームワークが直面する課題として, 柱の特徴の少ない点と, 点群における歩行者の占有面積の小さい点があげられる。提案手法は,26fps/秒(FPS)で走行しながら,KITTI歩行者BEVと3Dリーダーボードで第1位にランクされ,Nuscenes検出ベンチマークの最先端性能を実現している。
論文参考訳（メタデータ） (2021-12-31T13:41:37Z)
EGFN: Efficient Geometry Feature Network for Fast Stereo 3D Object Detection [51.52496693690059]
高速ステレオベース3Dオブジェクト検出器は高精度指向法よりもはるかに遅れている。主な理由として,高速ステレオ法における3次元幾何学的特徴表現の欠如や不足があげられる。提案された EGFN は、YOLOStsereo3D よりも5.16%向上し、mAP$_3d$ をわずか12msで上回った。
論文参考訳（メタデータ） (2021-11-28T05:25:36Z)
Improved Pillar with Fine-grained Feature for 3D Object Detection [23.348710029787068]
LiDAR点雲を用いた3次元物体検出は、自律走行知覚モジュールにおいて重要な役割を果たす。既存の点ベースの手法は、生の点が多すぎるため、速度要件に到達するのが困難である。 PointPillarのような2Dグリッドベースの手法は、単純な2D畳み込みに基づいて、安定的で効率的な速度を容易に達成できる。
論文参考訳（メタデータ） (2021-10-12T14:53:14Z)
HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文参考訳（メタデータ） (2021-04-02T06:34:49Z)
D3Feat: Joint Learning of Dense Detection and Description of 3D Local Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文参考訳（メタデータ） (2020-03-06T12:51:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。