論文の概要: HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection
- arxiv url: http://arxiv.org/abs/2003.00186v2
- Date: Mon, 16 Mar 2020 15:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 20:27:23.351493
- Title: HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection
- Title(参考訳): HVNet:LiDARによる3Dオブジェクト検出のためのハイブリッドVoxelネットワーク
- Authors: Maosheng Ye, Shuangjie Xu and Tongyi Cao
- Abstract要約: 我々は、ポイントクラウドに基づく自律運転のための3Dオブジェクト検出のための新しい一段階統合ネットワークであるHybrid Voxel Network(HVNet)を提案する。
近年の研究では、voxel PointNetスタイルの特徴抽出器による2次元のボクセル化が、大規模な3次元シーンの正確かつ効率的な検出につながることが示されている。
HVNetは、リアルタイム推論速度31Hzの既存のすべての手法の中で最高のmAPを達成する。
- 参考スコア(独自算出の注目度): 15.491551518695209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Hybrid Voxel Network (HVNet), a novel one-stage unified network
for point cloud based 3D object detection for autonomous driving. Recent
studies show that 2D voxelization with per voxel PointNet style feature
extractor leads to accurate and efficient detector for large 3D scenes. Since
the size of the feature map determines the computation and memory cost, the
size of the voxel becomes a parameter that is hard to balance. A smaller voxel
size gives a better performance, especially for small objects, but a longer
inference time. A larger voxel can cover the same area with a smaller feature
map, but fails to capture intricate features and accurate location for smaller
objects. We present a Hybrid Voxel network that solves this problem by fusing
voxel feature encoder (VFE) of different scales at point-wise level and project
into multiple pseudo-image feature maps. We further propose an attentive voxel
feature encoding that outperforms plain VFE and a feature fusion pyramid
network to aggregate multi-scale information at feature map level. Experiments
on the KITTI benchmark show that a single HVNet achieves the best mAP among all
existing methods with a real time inference speed of 31Hz.
- Abstract(参考訳): 我々は、ポイントクラウドに基づく自律運転のための3Dオブジェクト検出のための新しい一段階統合ネットワークであるHybrid Voxel Network(HVNet)を提案する。
近年の研究では、per voxel pointnetスタイルの特徴抽出器による2次元ボクセル化が、大規模な3dシーンの高精度かつ効率的な検出に繋がることが示された。
特徴マップのサイズが計算とメモリコストを決定するので、ボクセルのサイズはバランスの取れないパラメータとなる。
より小さなボクセルサイズでは、特に小さなオブジェクトではパフォーマンスが向上するが、推論時間が長くなる。
より大きなボクセルは、より小さな特徴マップで同じ領域をカバーできるが、複雑な特徴やより小さな物体の正確な位置を把握できない。
本稿では,異なるスケールのvoxel feature encoder (vfe) を用いて,複数の疑似画像特徴マップに投影することにより,この問題を解決するハイブリッドvoxelネットワークを提案する。
さらに,一般のVFEと機能融合ピラミッドネットワークを上回り,マルチスケール情報を特徴マップレベルで集約する注意的ボクセル特徴符号化を提案する。
KITTIベンチマークの実験では、1つのHVNetが31Hzのリアルタイム推論速度を持つ既存のすべての手法の中で最高のmAPを達成している。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - VoxelNextFusion: A Simple, Unified and Effective Voxel Fusion Framework
for Multi-Modal 3D Object Detection [33.46363259200292]
既存のボクセル法は、1対1で濃密な画像特徴を持つスパース・ボクセル特徴を融合する際の課題に直面する。
本稿では,VoxelNextFusionについて述べる。VoxelNextFusionは,Voxelベースの手法に特化して設計されたマルチモーダル3Dオブジェクト検出フレームワークである。
論文 参考訳(メタデータ) (2024-01-05T08:10:49Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - PV-RCNN++: Semantical Point-Voxel Feature Interaction for 3D Object
Detection [22.6659359032306]
本稿では,PV-RCNN++と呼ばれる意味的特徴相互作用を用いた新しいオブジェクト検出ネットワークを提案する。
KITTIデータセットの実験によると、PV-RCNN++は81.60$%$, 40.18$%$, 68.21$%$ 3D mAP on Car, Pedestrian, Cyclistで達成され、最先端技術と同等またはそれ以上のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-08-29T08:14:00Z) - VPIT: Real-time Embedded Single Object 3D Tracking Using Voxel Pseudo Images [90.60881721134656]
本稿では,Voxel Pseudo Image Tracking (VPIT) という,Voxel-based 3D Single Object Tracking (3D SOT) 手法を提案する。
KITTI追跡データセットの実験は、VPITが最速の3D SOT法であり、競合的な成功と精度の値を維持することを示している。
論文 参考訳(メタデータ) (2022-06-06T14:02:06Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection [99.16162624992424]
Voxel R-CNNというシンプルで効果的なVoxelベースのフレームワークを考案しました。
2段階のアプローチでボクセルの特徴をフル活用することにより,最先端の点ベースモデルと同等の精度で検出できる。
その結果、Voxel R-CNNは、NVIDIA 2080 Ti GPU上での25 FPSの速度で、リアルタイムフレーム処理速度を維持しながら、より高い検出精度を提供する。
論文 参考訳(メタデータ) (2020-12-31T17:02:46Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z) - SVGA-Net: Sparse Voxel-Graph Attention Network for 3D Object Detection
from Point Clouds [8.906003527848636]
生のLIDARデータから同等の3D検出タスクを実現するために,Sparse Voxel-Graph Attention Network (SVGA-Net)を提案する。
SVGA-Netは、分割された3次元球面ボクセルと、すべてのボクセルを通してグローバルなKNNグラフ内の局所完備グラフを構成する。
KITTI検出ベンチマークの実験は、グラフ表現を3次元オブジェクト検出に拡張する効率を実証している。
論文 参考訳(メタデータ) (2020-06-07T05:01:06Z) - PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection [76.30585706811993]
我々はPointVoxel-RCNN(PV-RCNN)という新しい高性能な3Dオブジェクト検出フレームワークを提案する。
提案手法は3次元ボクセル畳み込みニューラルネットワーク(CNN)とPointNetベースの集合抽象化の両方を深く統合する。
3DボクセルCNNの効率的な学習と高品質な提案と、PointNetベースのネットワークのフレキシブル・レセプティブ・フィールドを利用する。
論文 参考訳(メタデータ) (2019-12-31T06:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。