論文の概要: SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera
Videos
- arxiv url: http://arxiv.org/abs/2308.09244v2
- Date: Tue, 5 Sep 2023 11:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 03:14:24.386596
- Title: SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera
Videos
- Title(参考訳): SparseBEV:マルチカメラ映像からの高性能スパース3次元物体検出
- Authors: Haisong Liu, Yao Teng, Tao Lu, Haiguang Wang, Limin Wang
- Abstract要約: SparseBEVは完全にスパースな3Dオブジェクト検出器で、密度の高い物体よりも優れています。
nuScenesのテスト分割で、SparseBEVは67.5 NDSの最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 20.51396212498941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-based 3D object detection in BEV (Bird's Eye View) space has drawn
great attention over the past few years. Dense detectors typically follow a
two-stage pipeline by first constructing a dense BEV feature and then
performing object detection in BEV space, which suffers from complex view
transformations and high computation cost. On the other side, sparse detectors
follow a query-based paradigm without explicit dense BEV feature construction,
but achieve worse performance than the dense counterparts. In this paper, we
find that the key to mitigate this performance gap is the adaptability of the
detector in both BEV and image space. To achieve this goal, we propose
SparseBEV, a fully sparse 3D object detector that outperforms the dense
counterparts. SparseBEV contains three key designs, which are (1)
scale-adaptive self attention to aggregate features with adaptive receptive
field in BEV space, (2) adaptive spatio-temporal sampling to generate sampling
locations under the guidance of queries, and (3) adaptive mixing to decode the
sampled features with dynamic weights from the queries. On the test split of
nuScenes, SparseBEV achieves the state-of-the-art performance of 67.5 NDS. On
the val split, SparseBEV achieves 55.8 NDS while maintaining a real-time
inference speed of 23.5 FPS. Code is available at
https://github.com/MCG-NJU/SparseBEV.
- Abstract(参考訳): BEV(Bird's Eye View)空間におけるカメラによる3Dオブジェクト検出は、ここ数年で大きな注目を集めている。
デンス検出器は、まず高密度のBEV機能を構築し、次に複雑なビュー変換と高い計算コストに苦しむBEV空間で物体検出を行う。
一方、スパース検出器は、明示的な高密度BEV機能構築を伴わないクエリベースのパラダイムを踏襲するが、高密度BEVよりも性能が劣る。
本稿では,この性能ギャップを緩和する鍵として,BEVおよび画像空間における検出器の適応性について述べる。
この目的を達成するために,高密度の3Dオブジェクト検出器であるSparseBEVを提案する。
SparseBEV は,(1) BEV 空間における適応的受容場を持つ集合特徴に対するスケール適応型自己注意,(2) クエリの誘導によるサンプリング位置の生成のための適応時空間サンプリング,(3) クエリから動的重み付きサンプル特徴を復号する適応混合という3つの重要な設計を含む。
nuScenesのテスト分割で、SparseBEVは67.5 NDSの最先端のパフォーマンスを達成した。
valスプリットでは、SparseBEVは55.8 NDSを達成し、リアルタイムの推論速度は23.5 FPSである。
コードはhttps://github.com/MCG-NJU/SparseBEVで入手できる。
関連論文リスト
- BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection [47.7933708173225]
近年,クエリベースのトランスフォーマーデコーダが登場し,カメラベースの3Dオブジェクト検出が作り直されている。
本稿では,BEVNeXtと呼ばれる高密度BEVフレームワークを紹介する。
nuScenesベンチマークでは、BEVNeXtはBEVベースのフレームワークとクエリベースのフレームワークの両方を上回っている。
論文 参考訳(メタデータ) (2023-12-04T07:35:02Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based
Relocalization [86.63465798307728]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation [104.12419434114365]
現実世界のアプリケーションでは、センサの破損や故障がパフォーマンスの低下につながります。
極端に現実世界の環境に対処するための,MetaBEVと呼ばれる堅牢なフレームワークを提案する。
MetaBEVは、完全なモダリティと腐敗したモダリティの両方に大きなマージンで、先行技術よりも優れています。
論文 参考訳(メタデータ) (2023-04-19T16:37:17Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - TiG-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry
Learning [7.6887888234987125]
本稿では,LiDARモダリティからカメラベースBEV検出器へのターゲット内形状の学習手法を提案する。
TiG-BEVは、BEVDepthを+2.3% NDS、+2.4% mAP、BEVDetを+9.1% NDS、+10.3% mAPで効果的に増強することができる。
論文 参考訳(メタデータ) (2022-12-28T17:53:43Z) - PersDet: Monocular 3D Detection in Perspective Bird's-Eye-View [26.264139933212892]
Bird's-Eye-View (BEV)は、自律走行とロボット工学のための他の3D検出器よりも優れている。
画像特徴をBEVに変換するには、特別なオペレーターが特徴サンプリングを行う必要がある。
特徴サンプリングを必要としない新しいBEV表現であるBEVの視点で物体を検出することを提案する。
論文 参考訳(メタデータ) (2022-08-19T15:19:20Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。