論文の概要: M-BEV: Masked BEV Perception for Robust Autonomous Driving
- arxiv url: http://arxiv.org/abs/2312.12144v1
- Date: Tue, 19 Dec 2023 13:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:25:12.911098
- Title: M-BEV: Masked BEV Perception for Robust Autonomous Driving
- Title(参考訳): M-BEV:ロバストな自動運転のためのマスク付きのBEV知覚
- Authors: Siran Chen, Yue Ma, Yu Qiao, Yali Wang
- Abstract要約: Bird-Eye-View (BEV) は、低コストなデプロイメントと望ましい視覚検出能力のため、広く注目を集めている。
既存のモデルでは、駆動手順中に現実的なシナリオを無視しているため、パフォーマンスが大幅に低下する。
本稿では,M-BEV(Masked BEV)認識フレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.110634411996404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D perception is a critical problem in autonomous driving. Recently, the
Bird-Eye-View (BEV) approach has attracted extensive attention, due to low-cost
deployment and desirable vision detection capacity. However, the existing
models ignore a realistic scenario during the driving procedure, i.e., one or
more view cameras may be failed, which largely deteriorates the performance. To
tackle this problem, we propose a generic Masked BEV (M-BEV) perception
framework, which can effectively improve robustness to this challenging
scenario, by random masking and reconstructing camera views in the end-to-end
training. More specifically, we develop a novel Masked View Reconstruction
(MVR) module for M-BEV. It mimics various missing cases by randomly masking
features of different camera views, then leverages the original features of
these views as self-supervision, and reconstructs the masked ones with the
distinct spatio-temporal context across views. Via such a plug-and-play MVR,
our M-BEV is capable of learning the missing views from the resting ones, and
thus well generalized for robust view recovery and accurate perception in the
testing. We perform extensive experiments on the popular NuScenes benchmark,
where our framework can significantly boost 3D perception performance of the
state-of-the-art models on various missing view cases, e.g., for the absence of
back view, our M-BEV promotes the PETRv2 model with 10.3% mAP gain.
- Abstract(参考訳): 3D知覚は自動運転において重要な問題である。
近年,バードアイビュー (Bird-Eye-View, BEV) アプローチが注目されている。
しかし、既存のモデルは駆動手順中に現実的なシナリオを無視し、例えば1台以上のビューカメラが故障し、性能が大幅に低下する可能性がある。
この問題に対処するために,マスクをランダムにマスキングし,エンドツーエンドのトレーニングでカメラビューを再構成することにより,この難題に対する堅牢性を効果的に向上する汎用型マスク付きBEV(M-BEV)認識フレームワークを提案する。
より具体的には、M-BEVのための新しいMasked View Restruction (MVR)モジュールを開発する。
異なるカメラビューの特徴をランダムにマスキングし、これらのビューの本来の特徴を自己スーパービジョンとして活用し、ビューの異なる時空間コンテキストでマスクされたものを再構築する。
私たちのM-BEVは、プラグ&プレイのようなMVRによって、残りのものから見失ったビューを学習することができ、堅牢なビューリカバリとテストの正確な認識のために十分に一般化されています。
一般的なNuScenesベンチマークにおいて、バックビューがない場合、M-BEVは10.3%のmAPゲインを持つPETRv2モデルをプロモートするなど、最先端のモデルにおける3次元知覚性能を大幅に向上させることができる。
関連論文リスト
- OneBEV: Using One Panoramic Image for Bird's-Eye-View Semantic Mapping [25.801868221496473]
OneBEVは、単一のパノラマ画像を入力として使用する、新しいBEVセマンティックマッピングアプローチである。
Mamba View Transformation (MVT)と呼ばれる歪み対応モジュールは、パノラマの空間歪みを処理するために特別に設計されている。
この作業は、自律運転におけるBEVセマンティックマッピングを前進させ、より高度で信頼性の高い自律システムへの道を開く。
論文 参考訳(メタデータ) (2024-09-20T21:33:53Z) - Robust Bird's Eye View Segmentation by Adapting DINOv2 [3.236198583140341]
低ランク適応(LoRA)を用いた視覚基礎モデルDINOv2をBEV推定に適用する。
我々の実験は、様々な汚職下でのBEV知覚の堅牢性を高めることを示した。
また,適応表現の有効性を,学習可能なパラメータの少ないこと,学習中の収束の高速化の観点から示す。
論文 参考訳(メタデータ) (2024-09-16T12:23:35Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - RoadBEV: Road Surface Reconstruction in Bird's Eye View [55.0558717607946]
道路表面の状態、特に幾何学的プロファイルは、自動運転車の走行性能に大きな影響を与え、視覚に基づくオンライン道路再建は、事前に道路情報を確実に捉えている。
Bird's-Eye-View (BEV) の認識は、より信頼性が高く正確な再構築の可能性を秘めている。
本稿では,BEVにおける道路高架化モデルとして,RoadBEV-monoとRoadBEV-stereoの2つのモデルを提案する。
論文 参考訳(メタデータ) (2024-04-09T20:24:29Z) - CLIP-BEVFormer: Enhancing Multi-View Image-Based BEV Detector with Ground Truth Flow [20.550935390111686]
CLIP-BEVFormerは,多視点画像由来のBEVバックボーンを接地真実情報フローで拡張する新しい手法である。
我々は、挑戦的なnuScenesデータセットに関する広範な実験を行い、SOTAに対して顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2024-03-13T19:21:03Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - VoxelFormer: Bird's-Eye-View Feature Generation based on Dual-view
Attention for Multi-view 3D Object Detection [47.926010021559314]
変圧器を用いた検出器は2次元視覚知覚タスクにおいて顕著な性能を示した。
しかし、多視点3Dオブジェクト検出におけるそれらの性能は、畳み込みニューラルネットワークに基づく検出器の最先端(SOTA)よりも劣っている。
本稿では,BEVとカメラの両方から注目重みを生成する,新しいBEV特徴生成手法を提案する。
論文 参考訳(メタデータ) (2023-04-03T15:00:36Z) - Understanding the Robustness of 3D Object Detection with Bird's-Eye-View
Representations in Autonomous Driving [31.98600806479808]
Bird's-Eye-View (BEV)表現は、一般的なベンチマークでカメラ入力を備えた3D検出器の性能を大幅に改善した。
様々な代表モデルの自然的・敵対的ロバスト性を広範囲な環境下で評価する。
本稿では,時間的3次元空間に逆パッチを適用して,その整合性を保証する3次元一貫したパッチアタックを提案する。
論文 参考訳(メタデータ) (2023-03-30T11:16:58Z) - PersDet: Monocular 3D Detection in Perspective Bird's-Eye-View [26.264139933212892]
Bird's-Eye-View (BEV)は、自律走行とロボット工学のための他の3D検出器よりも優れている。
画像特徴をBEVに変換するには、特別なオペレーターが特徴サンプリングを行う必要がある。
特徴サンプリングを必要としない新しいBEV表現であるBEVの視点で物体を検出することを提案する。
論文 参考訳(メタデータ) (2022-08-19T15:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。