論文の概要: BEV-SAN: Accurate BEV 3D Object Detection via Slice Attention Networks
- arxiv url: http://arxiv.org/abs/2212.01231v1
- Date: Fri, 2 Dec 2022 15:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 16:57:26.904016
- Title: BEV-SAN: Accurate BEV 3D Object Detection via Slice Attention Networks
- Title(参考訳): BEV-SAN:スライス注意ネットワークによる正確なBEV 3Dオブジェクト検出
- Authors: Xiaowei Chi, Jiaming Liu, Ming Lu, Rongyu Zhang, Zhaoqing Wang,
Yandong Guo, and Shanghang Zhang
- Abstract要約: Bird's-Eye-View (BEV) 3D Object Detectionは自律運転システムにとって重要なマルチビュー技術である。
本研究では,BEVスライス注意ネットワーク (BEV-SAN) という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 28.024042528077125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bird's-Eye-View (BEV) 3D Object Detection is a crucial multi-view technique
for autonomous driving systems. Recently, plenty of works are proposed,
following a similar paradigm consisting of three essential components, i.e.,
camera feature extraction, BEV feature construction, and task heads. Among the
three components, BEV feature construction is BEV-specific compared with 2D
tasks. Existing methods aggregate the multi-view camera features to the
flattened grid in order to construct the BEV feature. However, flattening the
BEV space along the height dimension fails to emphasize the informative
features of different heights. For example, the barrier is located at a low
height while the truck is located at a high height. In this paper, we propose a
novel method named BEV Slice Attention Network (BEV-SAN) for exploiting the
intrinsic characteristics of different heights. Instead of flattening the BEV
space, we first sample along the height dimension to build the global and local
BEV slices. Then, the features of BEV slices are aggregated from the camera
features and merged by the attention mechanism. Finally, we fuse the merged
local and global BEV features by a transformer to generate the final feature
map for task heads. The purpose of local BEV slices is to emphasize informative
heights. In order to find them, we further propose a LiDAR-guided sampling
strategy to leverage the statistical distribution of LiDAR to determine the
heights of local slices. Compared with uniform sampling, LiDAR-guided sampling
can determine more informative heights. We conduct detailed experiments to
demonstrate the effectiveness of BEV-SAN. Code will be released.
- Abstract(参考訳): Bird's-Eye-View (BEV) 3D Object Detectionは自律運転システムにとって重要なマルチビュー技術である。
近年,カメラ機能抽出,BEV機能構築,タスクヘッドという3つの重要な要素からなる類似のパラダイムに従って,多くの作業が提案されている。
3つのコンポーネントのうち、BEVの機能構成は2Dタスクと比較してBEV固有のものである。
既存の方法は、BEV機能を構築するために、マルチビューカメラ機能をフラット化されたグリッドに集約する。
しかし、bev空間を高さ次元に沿って平坦化することは、異なる高さの情報的特徴を強調しない。
例えば、障壁は高い高さにあり、トラックは高い高さにある。
本稿では,BEVスライス注意ネットワーク (BEV-SAN) という新しい手法を提案する。
bev空間を平坦化する代わりに、まず高さ次元に沿ってサンプルを採取し、グローバルおよびローカルなbevスライスを構築する。
そして、カメラ特徴からBEVスライスの特徴を集約し、アテンション機構によりマージする。
最後に、ローカルおよびグローバルなBEV機能を変換器で融合し、タスクヘッドの最終的な特徴マップを生成する。
ローカルなBEVスライスの目的は、情報的高さを強調することである。
そこで本研究では,LiDARの統計的分布を利用して局所スライスの高さを推定する,LiDAR誘導サンプリング手法を提案する。
均一サンプリングと比較して、LiDAR誘導サンプリングはより情報的な高さを決定することができる。
BEV-SANの有効性を示すための詳細な実験を行った。
コードはリリースされる。
関連論文リスト
- CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity [34.025530326420146]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。
道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文 参考訳(メタデータ) (2023-10-04T13:38:53Z) - SA-BEV: Generating Semantic-Aware Bird's-Eye-View Feature for Multi-view
3D Object Detection [46.92706423094971]
画像特徴のセマンティックセグメンテーションに応じて背景情報をフィルタリングするセマンティック・アウェア・BEVプール(SA-BEVPool)を提案する。
また、セマンティック・アウェアのBEV機能と密接にマッチする効果的なデータ拡張戦略であるBEV-Pasteを提案する。
nuScenesの実験では、SA-BEVが最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2023-07-21T10:28:19Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - VoxelFormer: Bird's-Eye-View Feature Generation based on Dual-view
Attention for Multi-view 3D Object Detection [47.926010021559314]
変圧器を用いた検出器は2次元視覚知覚タスクにおいて顕著な性能を示した。
しかし、多視点3Dオブジェクト検出におけるそれらの性能は、畳み込みニューラルネットワークに基づく検出器の最先端(SOTA)よりも劣っている。
本稿では,BEVとカメラの両方から注目重みを生成する,新しいBEV特徴生成手法を提案する。
論文 参考訳(メタデータ) (2023-04-03T15:00:36Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - PersDet: Monocular 3D Detection in Perspective Bird's-Eye-View [26.264139933212892]
Bird's-Eye-View (BEV)は、自律走行とロボット工学のための他の3D検出器よりも優れている。
画像特徴をBEVに変換するには、特別なオペレーターが特徴サンプリングを行う必要がある。
特徴サンプリングを必要としない新しいBEV表現であるBEVの視点で物体を検出することを提案する。
論文 参考訳(メタデータ) (2022-08-19T15:19:20Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera
Images via Spatiotemporal Transformers [39.253627257740085]
マルチカメラ画像に基づく3次元検出やマップセグメンテーションを含む3次元視覚認識タスクは、自律運転システムに不可欠である。
本稿では,複数の自律運転認識タスクをサポートするために,変圧器を用いた統合BEV表現を学習するBEVFormerという新しいフレームワークを提案する。
BEVFormerは低視認性条件下での物体の速度推定とリコールの精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2022-03-31T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。