論文の概要: MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation
- arxiv url: http://arxiv.org/abs/2304.09801v1
- Date: Wed, 19 Apr 2023 16:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 13:36:20.827972
- Title: MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation
- Title(参考訳): MetaBEV:BEV検出とマップセグメンテーションのためのセンサ障害の解決
- Authors: Chongjian Ge, Junsong Chen, Enze Xie, Zhongdao Wang, Lanqing Hong,
Huchuan Lu, Zhenguo Li, and Ping Luo
- Abstract要約: 現実世界のアプリケーションでは、センサの破損や故障がパフォーマンスの低下につながります。
極端に現実世界の環境に対処するための,MetaBEVと呼ばれる堅牢なフレームワークを提案する。
MetaBEVは、完全なモダリティと腐敗したモダリティの両方に大きなマージンで、先行技術よりも優れています。
- 参考スコア(独自算出の注目度): 104.12419434114365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perception systems in modern autonomous driving vehicles typically take
inputs from complementary multi-modal sensors, e.g., LiDAR and cameras.
However, in real-world applications, sensor corruptions and failures lead to
inferior performances, thus compromising autonomous safety. In this paper, we
propose a robust framework, called MetaBEV, to address extreme real-world
environments involving overall six sensor corruptions and two extreme
sensor-missing situations. In MetaBEV, signals from multiple sensors are first
processed by modal-specific encoders. Subsequently, a set of dense BEV queries
are initialized, termed meta-BEV. These queries are then processed iteratively
by a BEV-Evolving decoder, which selectively aggregates deep features from
either LiDAR, cameras, or both modalities. The updated BEV representations are
further leveraged for multiple 3D prediction tasks. Additionally, we introduce
a new M2oE structure to alleviate the performance drop on distinct tasks in
multi-task joint learning. Finally, MetaBEV is evaluated on the nuScenes
dataset with 3D object detection and BEV map segmentation tasks. Experiments
show MetaBEV outperforms prior arts by a large margin on both full and
corrupted modalities. For instance, when the LiDAR signal is missing, MetaBEV
improves 35.5% detection NDS and 17.7% segmentation mIoU upon the vanilla
BEVFusion model; and when the camera signal is absent, MetaBEV still achieves
69.2% NDS and 53.7% mIoU, which is even higher than previous works that perform
on full-modalities. Moreover, MetaBEV performs fairly against previous methods
in both canonical perception and multi-task learning settings, refreshing
state-of-the-art nuScenes BEV map segmentation with 70.4% mIoU.
- Abstract(参考訳): 現代の自動運転車の認識システムは、LiDARやカメラなどの補完的なマルチモーダルセンサーから入力を受け取るのが一般的である。
しかし、現実世界のアプリケーションでは、センサーの破損と障害によりパフォーマンスが低下し、自律的な安全性が損なわれる。
本稿では,6つのセンサ破損と2つの極端センサ欠落状況を含む,極端な現実世界環境に対処する,MetaBEVと呼ばれる堅牢なフレームワークを提案する。
metabevでは、複数のセンサーからの信号が最初にモーダル固有のエンコーダによって処理される。
その後、一連の高密度なBEVクエリが初期化され、メタBEVと呼ばれる。
これらのクエリは、BEV-Evolvingデコーダによって反復的に処理され、LiDAR、カメラ、または両方のモダリティから深い特徴を選択的に集約する。
更新されたBEV表現は、複数の3D予測タスクにさらに活用される。
さらに,マルチタスク共同学習における個別タスクの性能低下を軽減するため,新しいM2oE構造を導入する。
最後に、MetaBEVは3Dオブジェクト検出とBEVマップセグメンテーションタスクを備えたnuScenesデータセットで評価される。
実験では、MetaBEVは、完全なモダリティと腐敗したモダリティの両方に大きなマージンで、先行技術を上回っている。
例えば、LiDAR信号が欠落した場合、MetaBEVはバニラのBEVFusionモデルで35.5%のNDSと17.7%のセグメンテーションmIoUを改良し、カメラ信号が不在時には69.2%のNDSと53.7%のmIoUを達成している。
さらにMetaBEVは、標準的な知覚とマルチタスクの学習設定の両方において、以前の手法とかなり比較し、70.4% mIoUで最先端のBEVマップセグメンテーションをリフレッシュする。
関連論文リスト
- MaskBEV: Towards A Unified Framework for BEV Detection and Map Segmentation [14.67253585778639]
MaskBEVは、マスキングによるマルチタスク学習パラダイムである。
3Dオブジェクトの検出と鳥の目視(BEV)マップのセグメンテーションを統一する。
3Dオブジェクト検出の1.3 NDS改善とBEVマップセグメンテーションの2.7 mIoU改善を実現している。
論文 参考訳(メタデータ) (2024-08-17T07:11:38Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - UniBEV: Multi-modal 3D Object Detection with Uniform BEV Encoders for Robustness against Missing Sensor Modalities [7.470926069132259]
本稿では、欠落したモダリティに対して堅牢性を実現するために、エンドツーエンドのマルチモーダル3Dオブジェクト検出フレームワークを提案する。
UniBEVはLiDARとカメラ入力に加えて、LiDARのみまたはカメラのみの入力でも再トレーニングなしで動作可能である。
UniBEVと最先端のBEVFusionとMetaBEVを、すべてのセンサー入力の組み合わせでnuScenesで比較する。
論文 参考訳(メタデータ) (2023-09-25T20:22:47Z) - SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera
Videos [20.51396212498941]
SparseBEVは完全にスパースな3Dオブジェクト検出器で、密度の高い物体よりも優れています。
nuScenesのテスト分割で、SparseBEVは67.5 NDSの最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-18T02:11:01Z) - Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline [76.48192454417138]
Bird's-Eye View (BEV)の表現は、次世代自動運転車(AV)の認識の基礎として期待されている。
本稿では,車載チップ上で高速なBEV認識を実現するフレームワークであるFast-BEVを提案する。
論文 参考訳(メタデータ) (2023-01-29T18:43:31Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - PersDet: Monocular 3D Detection in Perspective Bird's-Eye-View [26.264139933212892]
Bird's-Eye-View (BEV)は、自律走行とロボット工学のための他の3D検出器よりも優れている。
画像特徴をBEVに変換するには、特別なオペレーターが特徴サンプリングを行う必要がある。
特徴サンプリングを必要としない新しいBEV表現であるBEVの視点で物体を検出することを提案する。
論文 参考訳(メタデータ) (2022-08-19T15:19:20Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。