論文の概要: Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection
- arxiv url: http://arxiv.org/abs/2012.15712v2
- Date: Fri, 5 Feb 2021 16:25:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:06:53.818306
- Title: Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection
- Title(参考訳): Voxel R-CNN: 高性能なVoxel-based 3Dオブジェクト検出を目指して
- Authors: Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou, Yanyong Zhang,
Houqiang Li
- Abstract要約: Voxel R-CNNというシンプルで効果的なVoxelベースのフレームワークを考案しました。
2段階のアプローチでボクセルの特徴をフル活用することにより,最先端の点ベースモデルと同等の精度で検出できる。
その結果、Voxel R-CNNは、NVIDIA 2080 Ti GPU上での25 FPSの速度で、リアルタイムフレーム処理速度を維持しながら、より高い検出精度を提供する。
- 参考スコア(独自算出の注目度): 99.16162624992424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances on 3D object detection heavily rely on how the 3D data are
represented, \emph{i.e.}, voxel-based or point-based representation. Many
existing high performance 3D detectors are point-based because this structure
can better retain precise point positions. Nevertheless, point-level features
lead to high computation overheads due to unordered storage. In contrast, the
voxel-based structure is better suited for feature extraction but often yields
lower accuracy because the input data are divided into grids. In this paper, we
take a slightly different viewpoint -- we find that precise positioning of raw
points is not essential for high performance 3D object detection and that the
coarse voxel granularity can also offer sufficient detection accuracy. Bearing
this view in mind, we devise a simple but effective voxel-based framework,
named Voxel R-CNN. By taking full advantage of voxel features in a two stage
approach, our method achieves comparable detection accuracy with
state-of-the-art point-based models, but at a fraction of the computation cost.
Voxel R-CNN consists of a 3D backbone network, a 2D bird-eye-view (BEV) Region
Proposal Network and a detect head. A voxel RoI pooling is devised to extract
RoI features directly from voxel features for further refinement. Extensive
experiments are conducted on the widely used KITTI Dataset and the more recent
Waymo Open Dataset. Our results show that compared to existing voxel-based
methods, Voxel R-CNN delivers a higher detection accuracy while maintaining a
real-time frame processing rate, \emph{i.e}., at a speed of 25 FPS on an NVIDIA
RTX 2080 Ti GPU. The code is available at
\url{https://github.com/djiajunustc/Voxel-R-CNN}.
- Abstract(参考訳): 3Dオブジェクト検出の最近の進歩は、3Dデータの表現方法に大きく依存している。
voxel-based あるいは point-based representation。
既存の高性能3D検出器の多くは、正確な位置を保つことができるため、ポイントベースである。
それでも、ポイントレベルの機能は、順序のないストレージのために高い計算オーバーヘッドを引き起こす。
対照的に、voxelベースの構造は特徴抽出に適しているが、入力データをグリッドに分割することで精度が低下することが多い。
本稿では, 原点の正確な位置決めは高性能な3次元物体検出には不可欠ではなく, 粗いボクセル粒度も十分な検出精度が得られることを示す。
この考え方を念頭に置いて,Voxel R-CNNという,シンプルだが効果的なボクセルベースのフレームワークを考案した。
2段階のアプローチでvoxel機能を最大限に活用することにより,最先端のポイントベースモデルと同程度の検出精度を実現するが,計算コストは少ない。
Voxel R-CNNは3Dバックボーンネットワークと2Dバードアイビュー(BEV)地域提案ネットワークと検出ヘッドで構成される。
ボクセルRoIプーリングは、ボクセル特徴から直接RoI特徴を抽出し、さらなる改良を行う。
大規模な実験は、広く使われているKITTIデータセットと、より最近のWaymo Open Datasetで行われている。
従来のボクセル法と比較して,Voxel R-CNNは,NVIDIA RTX 2080 Ti GPU上で25FPSの速度で,リアルタイムフレーム処理速度, \emph{i.e} を維持しながら高い検出精度を実現する。
コードは \url{https://github.com/djiajunustc/voxel-r-cnn} で入手できる。
関連論文リスト
- VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking [78.25819070166351]
完全スパース3次元物体検出のためのVoxelNextを提案する。
私たちの中核となる洞察は、手作りのプロキシに頼ることなく、スパースボクセル機能に基づいてオブジェクトを直接予測することです。
私たちの強力なスパース畳み込みネットワークVoxelNeXtは、voxelの機能を通して3Dオブジェクトを検出し、追跡します。
論文 参考訳(メタデータ) (2023-03-20T17:40:44Z) - Graph R-CNN: Towards Accurate 3D Object Detection with
Semantic-Decorated Local Graph [26.226885108862735]
2段検出器は3次元物体検出で大いに人気を博している。
ほとんどの2段式3D検出器は、2段目のRoI特徴抽出にグリッドポイント、ボクセルグリッド、またはサンプルキーポイントを利用する。
本稿ではこの問題を3つの側面で解決する。
論文 参考訳(メタデータ) (2022-08-07T02:56:56Z) - From Voxel to Point: IoU-guided 3D Object Detection for Point Cloud with
Voxel-to-Point Decoder [79.39041453836793]
We present an Intersection-over-Union (IoU) guided two-stage 3D object detector with a voxel-to-point decoder。
本稿では,Voxel based Region Proposal Network (RPN) からマップビュー機能に加えて,点特徴を抽出する残余のvoxel-to-pointデコーダを提案する。
そこで本研究では,推定したIoUと改良された提案ボックスをより関連性の高いローカライゼーション信頼度として整列する,簡便で効率的な手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T14:30:13Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z) - SVGA-Net: Sparse Voxel-Graph Attention Network for 3D Object Detection
from Point Clouds [8.906003527848636]
生のLIDARデータから同等の3D検出タスクを実現するために,Sparse Voxel-Graph Attention Network (SVGA-Net)を提案する。
SVGA-Netは、分割された3次元球面ボクセルと、すべてのボクセルを通してグローバルなKNNグラフ内の局所完備グラフを構成する。
KITTI検出ベンチマークの実験は、グラフ表現を3次元オブジェクト検出に拡張する効率を実証している。
論文 参考訳(メタデータ) (2020-06-07T05:01:06Z) - PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection [76.30585706811993]
我々はPointVoxel-RCNN(PV-RCNN)という新しい高性能な3Dオブジェクト検出フレームワークを提案する。
提案手法は3次元ボクセル畳み込みニューラルネットワーク(CNN)とPointNetベースの集合抽象化の両方を深く統合する。
3DボクセルCNNの効率的な学習と高品質な提案と、PointNetベースのネットワークのフレキシブル・レセプティブ・フィールドを利用する。
論文 参考訳(メタデータ) (2019-12-31T06:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。