論文の概要: M-BEV: Masked BEV Perception for Robust Autonomous Driving
- arxiv url: http://arxiv.org/abs/2312.12144v1
- Date: Tue, 19 Dec 2023 13:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:25:12.911098
- Title: M-BEV: Masked BEV Perception for Robust Autonomous Driving
- Title(参考訳): M-BEV:ロバストな自動運転のためのマスク付きのBEV知覚
- Authors: Siran Chen, Yue Ma, Yu Qiao, Yali Wang
- Abstract要約: Bird-Eye-View (BEV) は、低コストなデプロイメントと望ましい視覚検出能力のため、広く注目を集めている。
既存のモデルでは、駆動手順中に現実的なシナリオを無視しているため、パフォーマンスが大幅に低下する。
本稿では,M-BEV(Masked BEV)認識フレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.110634411996404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D perception is a critical problem in autonomous driving. Recently, the
Bird-Eye-View (BEV) approach has attracted extensive attention, due to low-cost
deployment and desirable vision detection capacity. However, the existing
models ignore a realistic scenario during the driving procedure, i.e., one or
more view cameras may be failed, which largely deteriorates the performance. To
tackle this problem, we propose a generic Masked BEV (M-BEV) perception
framework, which can effectively improve robustness to this challenging
scenario, by random masking and reconstructing camera views in the end-to-end
training. More specifically, we develop a novel Masked View Reconstruction
(MVR) module for M-BEV. It mimics various missing cases by randomly masking
features of different camera views, then leverages the original features of
these views as self-supervision, and reconstructs the masked ones with the
distinct spatio-temporal context across views. Via such a plug-and-play MVR,
our M-BEV is capable of learning the missing views from the resting ones, and
thus well generalized for robust view recovery and accurate perception in the
testing. We perform extensive experiments on the popular NuScenes benchmark,
where our framework can significantly boost 3D perception performance of the
state-of-the-art models on various missing view cases, e.g., for the absence of
back view, our M-BEV promotes the PETRv2 model with 10.3% mAP gain.
- Abstract(参考訳): 3D知覚は自動運転において重要な問題である。
近年,バードアイビュー (Bird-Eye-View, BEV) アプローチが注目されている。
しかし、既存のモデルは駆動手順中に現実的なシナリオを無視し、例えば1台以上のビューカメラが故障し、性能が大幅に低下する可能性がある。
この問題に対処するために,マスクをランダムにマスキングし,エンドツーエンドのトレーニングでカメラビューを再構成することにより,この難題に対する堅牢性を効果的に向上する汎用型マスク付きBEV(M-BEV)認識フレームワークを提案する。
より具体的には、M-BEVのための新しいMasked View Restruction (MVR)モジュールを開発する。
異なるカメラビューの特徴をランダムにマスキングし、これらのビューの本来の特徴を自己スーパービジョンとして活用し、ビューの異なる時空間コンテキストでマスクされたものを再構築する。
私たちのM-BEVは、プラグ&プレイのようなMVRによって、残りのものから見失ったビューを学習することができ、堅牢なビューリカバリとテストの正確な認識のために十分に一般化されています。
一般的なNuScenesベンチマークにおいて、バックビューがない場合、M-BEVは10.3%のmAPゲインを持つPETRv2モデルをプロモートするなど、最先端のモデルにおける3次元知覚性能を大幅に向上させることができる。
関連論文リスト
- RoadBEV: Road Surface Reconstruction in Bird's Eye View [55.0558717607946]
視覚に基づくオンライン道路再建は,道路情報を事前に収集する。
近年のBird's-Eye-View (BEV) の認識技術は、より信頼性と正確な再構築の可能性を秘めている。
本稿では,BEVにおける道路高架化モデルとして,RoadBEV-monoとRoadBEV-stereoの2つのモデルを提案する。
論文 参考訳(メタデータ) (2024-04-09T20:24:29Z) - CLIP-BEVFormer: Enhancing Multi-View Image-Based BEV Detector with Ground Truth Flow [20.550935390111686]
CLIP-BEVFormerは,多視点画像由来のBEVバックボーンを接地真実情報フローで拡張する新しい手法である。
我々は、挑戦的なnuScenesデータセットに関する広範な実験を行い、SOTAに対して顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2024-03-13T19:21:03Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [111.13119809216313]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - Multi-camera Bird's Eye View Perception for Autonomous Driving [17.834495597639805]
他のエージェントや構造の空間的推論を可能にするためには、3Dで知覚出力を生成することが不可欠である。
カメラ画像から所望のBEV表現を達成するための最も基本的なアプローチは、平らな地面を仮定してIPMである。
近年のアプローチでは、ディープニューラルネットワークを使用してBEV空間を直接出力している。
論文 参考訳(メタデータ) (2023-09-16T19:12:05Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - SA-BEV: Generating Semantic-Aware Bird's-Eye-View Feature for Multi-view
3D Object Detection [46.92706423094971]
画像特徴のセマンティックセグメンテーションに応じて背景情報をフィルタリングするセマンティック・アウェア・BEVプール(SA-BEVPool)を提案する。
また、セマンティック・アウェアのBEV機能と密接にマッチする効果的なデータ拡張戦略であるBEV-Pasteを提案する。
nuScenesの実験では、SA-BEVが最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2023-07-21T10:28:19Z) - VoxelFormer: Bird's-Eye-View Feature Generation based on Dual-view
Attention for Multi-view 3D Object Detection [47.926010021559314]
変圧器を用いた検出器は2次元視覚知覚タスクにおいて顕著な性能を示した。
しかし、多視点3Dオブジェクト検出におけるそれらの性能は、畳み込みニューラルネットワークに基づく検出器の最先端(SOTA)よりも劣っている。
本稿では,BEVとカメラの両方から注目重みを生成する,新しいBEV特徴生成手法を提案する。
論文 参考訳(メタデータ) (2023-04-03T15:00:36Z) - Understanding the Robustness of 3D Object Detection with Bird's-Eye-View
Representations in Autonomous Driving [31.98600806479808]
Bird's-Eye-View (BEV)表現は、一般的なベンチマークでカメラ入力を備えた3D検出器の性能を大幅に改善した。
様々な代表モデルの自然的・敵対的ロバスト性を広範囲な環境下で評価する。
本稿では,時間的3次元空間に逆パッチを適用して,その整合性を保証する3次元一貫したパッチアタックを提案する。
論文 参考訳(メタデータ) (2023-03-30T11:16:58Z) - PersDet: Monocular 3D Detection in Perspective Bird's-Eye-View [26.264139933212892]
Bird's-Eye-View (BEV)は、自律走行とロボット工学のための他の3D検出器よりも優れている。
画像特徴をBEVに変換するには、特別なオペレーターが特徴サンプリングを行う必要がある。
特徴サンプリングを必要としない新しいBEV表現であるBEVの視点で物体を検出することを提案する。
論文 参考訳(メタデータ) (2022-08-19T15:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。