論文の概要: GraphBEV: Towards Robust BEV Feature Alignment for Multi-Modal 3D Object Detection
- arxiv url: http://arxiv.org/abs/2403.11848v2
- Date: Wed, 10 Apr 2024 04:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 16:47:58.797278
- Title: GraphBEV: Towards Robust BEV Feature Alignment for Multi-Modal 3D Object Detection
- Title(参考訳): GraphBEV:マルチモード3Dオブジェクト検出のためのロバストなBEV機能アライメントを目指して
- Authors: Ziying Song, Lei Yang, Shaoqing Xu, Lin Liu, Dongyang Xu, Caiyan Jia, Feiyang Jia, Li Wang,
- Abstract要約: We propose a robust fusion framework called Graph BEV to integrate LiDAR and camera BEV features。
我々のフレームワークは、悪臭のある条件下で、BEV Fusionを8.3%上回っている。
- 参考スコア(独自算出の注目度): 18.21607858133675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating LiDAR and camera information into Bird's-Eye-View (BEV) representation has emerged as a crucial aspect of 3D object detection in autonomous driving. However, existing methods are susceptible to the inaccurate calibration relationship between LiDAR and the camera sensor. Such inaccuracies result in errors in depth estimation for the camera branch, ultimately causing misalignment between LiDAR and camera BEV features. In this work, we propose a robust fusion framework called Graph BEV. Addressing errors caused by inaccurate point cloud projection, we introduce a Local Align module that employs neighbor-aware depth features via Graph matching. Additionally, we propose a Global Align module to rectify the misalignment between LiDAR and camera BEV features. Our Graph BEV framework achieves state-of-the-art performance, with an mAP of 70.1\%, surpassing BEV Fusion by 1.6\% on the nuscenes validation set. Importantly, our Graph BEV outperforms BEV Fusion by 8.3\% under conditions with misalignment noise.
- Abstract(参考訳): LiDARとカメラ情報をBird's-Eye-View(BEV)表現に統合することは、自動運転における3Dオブジェクト検出の重要な側面として現れている。
しかし,既存の手法は,LiDARとカメラセンサの不正確な校正関係の影響を受けやすい。
このような不正確さは、カメラブランチの深さ推定の誤差をもたらし、最終的にLiDARとカメラBEVの特徴の不一致を引き起こす。
本研究では,グラフBEVと呼ばれる堅牢な融合フレームワークを提案する。
不正確なポイントクラウドプロジェクションによるエラーに対処するため、グラフマッチングを介して近隣の認識深度機能を利用するLocal Alignモジュールを導入する。
さらに,LiDARとカメラBEVの機能の相違を是正するGlobal Alignモジュールを提案する。
当社のグラフBEVフレームワークは,nuscenes検証セットにおいて,mAPが70.1\%,BEV Fusionが1.6\%を超え,最先端のパフォーマンスを実現している。
重要な点として、我々のグラフBEVは、悪臭のある条件下で、BEV Fusionを8.3%上回っている。
関連論文リスト
- SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection [15.551625571158056]
高精度な3次元物体検出のためのLiDARカメラ融合フレームワークSimpleBEVを提案する。
提案手法は, nuScenesデータセット上で77.6%のNDS精度を実現し, 3次元物体検出トラックにおける優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-08T02:51:39Z) - ContrastAlign: Toward Robust BEV Feature Alignment via Contrastive Learning for Multi-Modal 3D Object Detection [21.05923528672353]
異種モダリティのアライメントを高めるための新しいContrastAlignアプローチを提案する。
MAPは70.3%であり, nuScenes 検証セットでは BEVFusion を 1.8% 上回っている。
論文 参考訳(メタデータ) (2024-05-27T06:43:12Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - BroadBEV: Collaborative LiDAR-camera Fusion for Broad-sighted Bird's Eye
View Map Construction [31.664613321775516]
そこで本稿では,空間的同期手法を用いて,BroadBEV(BroadBEV)とBroadBEV(BroadBEV)の融合を提案する。
我々の戦略は、広視野認識のためのカメラBEV推定を強化し、同時に、全BEV空間におけるLiDARの空き度を向上することである。
論文 参考訳(メタデータ) (2023-09-20T07:55:57Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation [104.12419434114365]
現実世界のアプリケーションでは、センサの破損や故障がパフォーマンスの低下につながります。
極端に現実世界の環境に対処するための,MetaBEVと呼ばれる堅牢なフレームワークを提案する。
MetaBEVは、完全なモダリティと腐敗したモダリティの両方に大きなマージンで、先行技術よりも優れています。
論文 参考訳(メタデータ) (2023-04-19T16:37:17Z) - VoxelFormer: Bird's-Eye-View Feature Generation based on Dual-view
Attention for Multi-view 3D Object Detection [47.926010021559314]
変圧器を用いた検出器は2次元視覚知覚タスクにおいて顕著な性能を示した。
しかし、多視点3Dオブジェクト検出におけるそれらの性能は、畳み込みニューラルネットワークに基づく検出器の最先端(SOTA)よりも劣っている。
本稿では,BEVとカメラの両方から注目重みを生成する,新しいBEV特徴生成手法を提案する。
論文 参考訳(メタデータ) (2023-04-03T15:00:36Z) - BEVFusion4D: Learning LiDAR-Camera Fusion Under Bird's-Eye-View via
Cross-Modality Guidance and Temporal Aggregation [14.606324706328106]
本稿では,LiDARとカメラBEVを生成し,適応的なモダリティ融合を行うためのデュアルブランチフレームワークを提案する。
LiDAR-Guided View Transformer (LGVT) は、BEV空間におけるカメラ表現を効果的に得るように設計されている。
BEVFusion4Dと呼ばれる我々のフレームワークは、3Dオブジェクト検出において最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-30T02:18:07Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera
Images via Spatiotemporal Transformers [39.253627257740085]
マルチカメラ画像に基づく3次元検出やマップセグメンテーションを含む3次元視覚認識タスクは、自律運転システムに不可欠である。
本稿では,複数の自律運転認識タスクをサポートするために,変圧器を用いた統合BEV表現を学習するBEVFormerという新しいフレームワークを提案する。
BEVFormerは低視認性条件下での物体の速度推定とリコールの精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2022-03-31T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。