論文の概要: BEVDetNet: Bird's Eye View LiDAR Point Cloud based Real-time 3D Object
Detection for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2104.10780v1
- Date: Wed, 21 Apr 2021 22:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 13:57:12.795285
- Title: BEVDetNet: Bird's Eye View LiDAR Point Cloud based Real-time 3D Object
Detection for Autonomous Driving
- Title(参考訳): BEVDetNet:Bird's Eye View LiDAR Point Cloudによる自律走行のためのリアルタイム3Dオブジェクト検出
- Authors: Sambit Mohapatra, Senthil Yogamani, Heinrich Gotzig, Stefan Milz and
Patrick Mader
- Abstract要約: キーポイント,ボックス予測,方向予測を用いたオブジェクト中心検出のための単一統一モデルとして,新しいセマンティックセマンティックセマンティクスアーキテクチャを提案する。
提案されたアーキテクチャは簡単に拡張でき、追加の計算なしで Road のようなセマンティックセグメンテーションクラスを含めることができる。
モデルは、KITTIデータセット上のIoU=0.5の平均精度で2%の最小精度の劣化で、他のトップ精度モデルよりも5倍高速です。
- 参考スコア(独自算出の注目度): 6.389322215324224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR based 3D object detection is a crucial module in autonomous driving
particularly for long range sensing. Most of the research is focused on
achieving higher accuracy and these models are not optimized for deployment on
embedded systems from the perspective of latency and power efficiency. For high
speed driving scenarios, latency is a crucial parameter as it provides more
time to react to dangerous situations. Typically a voxel or point-cloud based
3D convolution approach is utilized for this module. Firstly, they are
inefficient on embedded platforms as they are not suitable for efficient
parallelization. Secondly, they have a variable runtime due to level of
sparsity of the scene which is against the determinism needed in a safety
system. In this work, we aim to develop a very low latency algorithm with fixed
runtime. We propose a novel semantic segmentation architecture as a single
unified model for object center detection using key points, box predictions and
orientation prediction using binned classification in a simpler Bird's Eye View
(BEV) 2D representation. The proposed architecture can be trivially extended to
include semantic segmentation classes like road without any additional
computation. The proposed model has a latency of 4 ms on the embedded Nvidia
Xavier platform. The model is 5X faster than other top accuracy models with a
minimal accuracy degradation of 2% in Average Precision at IoU=0.5 on KITTI
dataset.
- Abstract(参考訳): LiDARベースの3Dオブジェクト検出は、特に長距離センシングにおいて、自律走行において重要なモジュールである。
研究の大部分は高い精度を達成することに集中しており、これらのモデルはレイテンシと電力効率の観点から、組み込みシステムへのデプロイに最適化されていない。
高速運転シナリオでは、危険な状況に対処する時間を増やすため、レイテンシが重要なパラメータである。
一般に、voxelまたはpoint-cloudベースの3d畳み込みアプローチがこのモジュールに利用される。
まず、効率的な並列化には適さないため、組み込みプラットフォームでは非効率である。
第2に、安全システムに必要な決定論に反する、シーンのスパーシティのレベルに起因する可変ランタイムがある。
本研究では,固定ランタイムを用いた低レイテンシアルゴリズムの開発を目指す。
本稿では,単純なバードズ・アイ・ビュー(bev)2次元表現において,キーポイント,ボックス予測,方位予測を用いた物体中心検出のための単一統一モデルとして,新しい意味セグメンテーションアーキテクチャを提案する。
提案されたアーキテクチャは、追加の計算なしで road のようなセマンティックセグメンテーションクラスを含むように自明に拡張することができる。
提案モデルは、組込みnvidia xavierプラットフォーム上で4msのレイテンシを持つ。
モデルは、KITTIデータセット上のIoU=0.5における平均精度2%の最小精度で、他のトップ精度モデルよりも5倍高速である。
関連論文リスト
- UltimateDO: An Efficient Framework to Marry Occupancy Prediction with 3D Object Detection via Channel2height [2.975860548186652]
現代の自律運転システムでは、作業と3Dオブジェクト検出が標準的な2つのタスクである。
高速な3次元物体検出と占有予測(UltimateDO)を実現する手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T13:14:13Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - CPGNet: Cascade Point-Grid Fusion Network for Real-Time LiDAR Semantic
Segmentation [8.944151935020992]
本稿では,有効性と効率を両立するカスケードポイントグリッド融合ネットワーク(CPGNet)を提案する。
アンサンブルモデルやTTAのないCPGNetは最先端のRPVNetと同等だが、4.7倍高速である。
論文 参考訳(メタデータ) (2022-04-21T06:56:30Z) - Improved Pillar with Fine-grained Feature for 3D Object Detection [23.348710029787068]
LiDAR点雲を用いた3次元物体検出は、自律走行知覚モジュールにおいて重要な役割を果たす。
既存の点ベースの手法は、生の点が多すぎるため、速度要件に到達するのが困難である。
PointPillarのような2Dグリッドベースの手法は、単純な2D畳み込みに基づいて、安定的で効率的な速度を容易に達成できる。
論文 参考訳(メタデータ) (2021-10-12T14:53:14Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - Multi Projection Fusion for Real-time Semantic Segmentation of 3D LiDAR
Point Clouds [2.924868086534434]
本稿では,ポイントクラウドの複数のプロジェクションを利用する3次元ポイントクラウドセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のMulti-Projection Fusionフレームワークは、2つの異なる高効率2次元完全畳み込みモデルを用いて球面および鳥眼の視射影を解析する。
論文 参考訳(メタデータ) (2020-11-03T19:40:43Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。