論文の概要: PillarNet: High-Performance Pillar-based 3D Object Detection
- arxiv url: http://arxiv.org/abs/2205.07403v1
- Date: Mon, 16 May 2022 00:14:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 01:56:18.850682
- Title: PillarNet: High-Performance Pillar-based 3D Object Detection
- Title(参考訳): PillarNet:高性能ピラーベース3Dオブジェクト検出
- Authors: Guangsheng Shi, Ruifeng Li and Chao Ma
- Abstract要約: リアルタイムかつ高性能な3Dオブジェクト検出は、自動運転にとって重要な課題である。
最近のトップパフォーマンスの3Dオブジェクト検出器は、主に点ベースまたは3Dボクセルベースの畳み込みに依存している。
我々はPillarNetと呼ばれるリアルタイムかつ高性能な柱型検出器を開発した。
- 参考スコア(独自算出の注目度): 4.169126928311421
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Real-time and high-performance 3D object detection is of critical importance
for autonomous driving. Recent top-performing 3D object detectors mainly rely
on point-based or 3D voxel-based convolutions, which are both computationally
inefficient for onboard deployment. In contrast, pillar-based methods use
merely 2D convolutions, which consume less computation resources, but they lag
far behind their voxel-based counterparts in detection accuracy. In this paper,
by examining the primary performance gap between pillar- and voxel-based
detectors, we develop a real-time and high-performance pillar-based detector,
dubbed PillarNet. The proposed PillarNet consists of a powerful encoder network
for effective pillar feature learning, a neck network for spatial-semantic
feature fusion and the commonly used detect head. Using only 2D convolutions,
PillarNet is flexible to an optional pillar size and compatible with classical
2D CNN backbones, such as VGGNet and ResNet. Additionally, PillarNet benefits
from an orientation-decoupled IoU regression loss along with the IoU-aware
prediction branch. Extensive experimental results on the large-scale nuScenes
Dataset and Waymo Open Dataset demonstrate that the proposed PillarNet performs
well over the state-of-the-art 3D detectors in terms of effectiveness and
efficiency.
- Abstract(参考訳): リアルタイムかつ高性能な3Dオブジェクト検出は、自動運転にとって重要な課題である。
最近のトップパフォーマンスの3Dオブジェクト検出器は、主にポイントベースまたは3Dボクセルベースの畳み込みに依存している。
対照的に、柱ベースの手法は単に2次元の畳み込みを使い、少ない計算資源を消費するが、検出精度においてボクセルベースの手法よりもはるかに遅れている。
本稿では,柱型検出器とボクセル型検出器の主な性能ギャップを調べた結果,PillarNetと呼ばれるリアルタイムかつ高性能な柱型検出器を開発した。
提案するPillarNetは,効率的な柱特徴学習のためのエンコーダネットワーク,空間意味的特徴融合のためのネックネットワーク,そして一般的に使用される検出ヘッドからなる。
2Dコンボリューションのみを使用して、PillarNetはオプションの柱サイズに柔軟性があり、VGGNetやResNetのような古典的な2D CNNバックボーンと互換性がある。
さらに、PillarNetは、IoU対応予測ブランチとともに、方向分離されたIoU回帰損失の恩恵を受ける。
大規模なnuScenes DatasetとWaymo Open Datasetの大規模な実験結果から、提案したPillarNetは、最先端の3D検出器に対して、有効性と効率の点で優れた性能を示している。
関連論文リスト
- PillarNeSt: Embracing Backbone Scaling and Pretraining for Pillar-based
3D Object Detection [33.00510927880774]
柱型3次元物体検出器における2次元バックボーンスケーリングと事前学習の有効性を示す。
提案する柱型検出器であるPillarNeStは、既存の3Dオブジェクト検出器よりも、nuScenesとArgoversev2データセットのマージンが大きい。
論文 参考訳(メタデータ) (2023-11-29T16:11:33Z) - HEDNet: A Hierarchical Encoder-Decoder Network for 3D Object Detection
in Point Clouds [19.1921315424192]
ポイントクラウドにおける3Dオブジェクト検出は、自律運転システムにとって重要である。
3Dオブジェクト検出における主な課題は、3Dシーン内の点のスパース分布に起因する。
本稿では3次元オブジェクト検出のための階層型エンコーダデコーダネットワークであるHEDNetを提案する。
論文 参考訳(メタデータ) (2023-10-31T07:32:08Z) - PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR
Point Clouds [29.15589024703907]
本稿では,計算資源の割り当ての観点から,局所的な点集合体を再考する。
最も単純な柱ベースのモデルは、精度とレイテンシの両方を考慮して驚くほどよく機能することがわかった。
本研究は,3次元物体検出の高性能化のために,詳細な幾何学的モデリングが不可欠である,という一般的な直観に挑戦する。
論文 参考訳(メタデータ) (2023-05-08T17:59:14Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - CVFNet: Real-time 3D Object Detection by Learning Cross View Features [11.402076835949824]
CVFNetと呼ばれるリアルタイムビューベースの1段3Dオブジェクト検出器を提案する。
本稿ではまず,複数の段階において,ポイント・アンド・レンジ・ビュー機能を深く統合した新しいポイント・ラウンジ機能融合モジュールを提案する。
次に, 得られた深度視点特徴を鳥の目視に変換する際に, 3次元形状を良好に維持する特別のスライスピラーを設計する。
論文 参考訳(メタデータ) (2022-03-13T06:23:18Z) - EGFN: Efficient Geometry Feature Network for Fast Stereo 3D Object
Detection [51.52496693690059]
高速ステレオベース3Dオブジェクト検出器は高精度指向法よりもはるかに遅れている。
主な理由として,高速ステレオ法における3次元幾何学的特徴表現の欠如や不足があげられる。
提案された EGFN は、YOLOStsereo3D よりも5.16%向上し、mAP$_3d$ をわずか12msで上回った。
論文 参考訳(メタデータ) (2021-11-28T05:25:36Z) - Improved Pillar with Fine-grained Feature for 3D Object Detection [23.348710029787068]
LiDAR点雲を用いた3次元物体検出は、自律走行知覚モジュールにおいて重要な役割を果たす。
既存の点ベースの手法は、生の点が多すぎるため、速度要件に到達するのが困難である。
PointPillarのような2Dグリッドベースの手法は、単純な2D畳み込みに基づいて、安定的で効率的な速度を容易に達成できる。
論文 参考訳(メタデータ) (2021-10-12T14:53:14Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection [99.16162624992424]
Voxel R-CNNというシンプルで効果的なVoxelベースのフレームワークを考案しました。
2段階のアプローチでボクセルの特徴をフル活用することにより,最先端の点ベースモデルと同等の精度で検出できる。
その結果、Voxel R-CNNは、NVIDIA 2080 Ti GPU上での25 FPSの速度で、リアルタイムフレーム処理速度を維持しながら、より高い検出精度を提供する。
論文 参考訳(メタデータ) (2020-12-31T17:02:46Z) - Local Grid Rendering Networks for 3D Object Detection in Point Clouds [98.02655863113154]
CNNは強力だが、全点の雲を高密度の3Dグリッドに酸化した後、点データに直接畳み込みを適用するのは計算コストがかかる。
入力点のサブセットの小さな近傍を低解像度の3Dグリッドに独立してレンダリングする,新しい,原理化されたローカルグリッドレンダリング(LGR)演算を提案する。
ScanNetとSUN RGB-Dデータセットを用いた3次元オブジェクト検出のためのLGR-Netを検証する。
論文 参考訳(メタデータ) (2020-07-04T13:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。