論文の概要: Pillar R-CNN for Point Cloud 3D Object Detection
- arxiv url: http://arxiv.org/abs/2302.13301v1
- Date: Sun, 26 Feb 2023 12:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 17:55:13.908899
- Title: Pillar R-CNN for Point Cloud 3D Object Detection
- Title(参考訳): ポイントクラウド3次元物体検出のためのピラーR-CNN
- Authors: Guangsheng Shi, Ruifeng Li and Chao Ma
- Abstract要約: 我々はPillar R-CNNという概念的にシンプルで効果的な2段階の3D検出アーキテクチャを考案した。
我々のPillar R-CNNは、大規模Openデータセット上の最先端の3D検出器に対して好意的に動作します。
自律運転を含むアプリケーションに対するBEVのさらなる認識は、効果的でエレガントなPillar R-CNNアーキテクチャのおかげで可能になった。
- 参考スコア(独自算出の注目度): 4.169126928311421
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The performance of point cloud 3D object detection hinges on effectively
representing raw points, grid-based voxels or pillars. Recent two-stage 3D
detectors typically take the point-voxel-based R-CNN paradigm, i.e., the first
stage resorts to the 3D voxel-based backbone for 3D proposal generation on
bird-eye-view (BEV) representation and the second stage refines them via the
intermediate point representation. Their primary mechanisms involve the
utilization of intermediary keypoints to restore the substantial 3D structure
context from the converted BEV representation. The skilled point-voxel feature
interaction, however, makes the entire detection pipeline more complex and
compute-intensive. In this paper, we take a different viewpoint -- the
pillar-based BEV representation owns sufficient capacity to preserve the 3D
structure. In light of the latest advances in BEV-based perception, we devise a
conceptually simple yet effective two-stage 3D detection architecture, named
Pillar R-CNN. On top of densified BEV feature maps, Pillar R-CNN can easily
introduce the feature pyramid architecture to generate 3D proposals at various
scales and take the simple 2D R-CNN style detect head for box refinement. Our
Pillar R-CNN performs favorably against state-of-the-art 3D detectors on the
large-scale Waymo Open Dataset but at a small extra cost. It should be
highlighted that further exploration into BEV perception for applications
involving autonomous driving is now possible thanks to the effective and
elegant Pillar R-CNN architecture.
- Abstract(参考訳): ポイントクラウド3Dオブジェクト検出ヒンジは、原点、グリッドベースのボクセルまたは柱を効果的に表現する。
最近の2段階の3d検出器は、ポイントボクセルベースのr-cnnパラダイム、すなわち第1段階はバード・アイ・ビュー(bev)表現に基づく3d提案生成のための3dボクセルベースのバックボーン、第2段階は中間点表現を介してそれらを洗練する。
それらの主要なメカニズムは、変換されたBEV表現から実質的な3D構造コンテキストを復元するために中間キーポイントを利用することである。
しかし、熟練したポイントボクセル機能インタラクションにより、検出パイプライン全体がより複雑で計算集約的になる。
本稿では, 柱型BEV表現は3次元構造を維持するのに十分な能力を有する, 異なる視点で考える。
BEVベースの認識の最近の進歩を踏まえ、概念的にシンプルで効果的な2段階の3D検出アーキテクチャ、Pillar R-CNNを考案した。
Pillar R-CNNは、高密度のBEV特徴マップに加えて、特徴ピラミッドアーキテクチャを導入し、様々なスケールで3D提案を生成し、ボックスリファインメントのための単純な2D R-CNNスタイル検出ヘッドを利用できる。
私たちのPillar R-CNNは、大規模なWaymo Open Datasetで最先端の3D検出器に対して好意的に動作します。
自律運転を含むアプリケーションに対するBEVのさらなる認識は、効果的でエレガントなPillar R-CNNアーキテクチャのおかげで可能になった。
関連論文リスト
- LiDAR-Based 3D Object Detection via Hybrid 2D Semantic Scene Generation [38.38852904444365]
本稿では,2次元空間における3次元環境のセマンティクスと幾何学の両方をエンコードするシーン表現を提案する。
私たちのシンプルで効果的なデザインは、ほとんどの最先端の3Dオブジェクト検出器に簡単に統合できます。
論文 参考訳(メタデータ) (2023-04-04T04:05:56Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object
Detection and Tracking [12.285423418301683]
本稿では,スパースクエリ,ボックスワイズサンプリングによるスパースアテンション,スパース予測を組み込んだ新しい2段フルスパース検出器であるスパースR-CNN3Dを提案する。
nuScenesデータセットの実験では、SRCN3Dは3Dオブジェクト検出とマルチオブジェクト追跡の両方で競合性能を達成している。
論文 参考訳(メタデータ) (2022-06-29T07:58:39Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection [99.16162624992424]
Voxel R-CNNというシンプルで効果的なVoxelベースのフレームワークを考案しました。
2段階のアプローチでボクセルの特徴をフル活用することにより,最先端の点ベースモデルと同等の精度で検出できる。
その結果、Voxel R-CNNは、NVIDIA 2080 Ti GPU上での25 FPSの速度で、リアルタイムフレーム処理速度を維持しながら、より高い検出精度を提供する。
論文 参考訳(メタデータ) (2020-12-31T17:02:46Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z) - PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection [76.30585706811993]
我々はPointVoxel-RCNN(PV-RCNN)という新しい高性能な3Dオブジェクト検出フレームワークを提案する。
提案手法は3次元ボクセル畳み込みニューラルネットワーク(CNN)とPointNetベースの集合抽象化の両方を深く統合する。
3DボクセルCNNの効率的な学習と高品質な提案と、PointNetベースのネットワークのフレキシブル・レセプティブ・フィールドを利用する。
論文 参考訳(メタデータ) (2019-12-31T06:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。