論文の概要: BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios
- arxiv url: http://arxiv.org/abs/2212.05758v2
- Date: Sun, 21 Jan 2024 03:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 22:13:01.115246
- Title: BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios
- Title(参考訳): BEV-MAE:自律走行シナリオにおけるポイントクラウド事前学習のための鳥眼視マズケオートエンコーダ
- Authors: Zhiwei Lin, Yongtao Wang, Shengxiang Qi, Nan Dong, Ming-Hsuan Yang
- Abstract要約: 自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
- 参考スコア(独自算出の注目度): 51.285561119993105
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Existing LiDAR-based 3D object detection methods for autonomous driving
scenarios mainly adopt the training-from-scratch paradigm. Unfortunately, this
paradigm heavily relies on large-scale labeled data, whose collection can be
expensive and time-consuming. Self-supervised pre-training is an effective and
desirable way to alleviate this dependence on extensive annotated data. In this
work, we present BEV-MAE, an efficient masked autoencoder pre-training
framework for LiDAR-based 3D object detection in autonomous driving.
Specifically, we propose a bird's eye view (BEV) guided masking strategy to
guide the 3D encoder learning feature representation in a BEV perspective and
avoid complex decoder design during pre-training. Furthermore, we introduce a
learnable point token to maintain a consistent receptive field size of the 3D
encoder with fine-tuning for masked point cloud inputs. Based on the property
of outdoor point clouds in autonomous driving scenarios, i.e., the point clouds
of distant objects are more sparse, we propose point density prediction to
enable the 3D encoder to learn location information, which is essential for
object detection. Experimental results show that BEV-MAE surpasses prior
state-of-the-art self-supervised methods and achieves a favorably pre-training
efficiency. Furthermore, based on TransFusion-L, BEV-MAE achieves new
state-of-the-art LiDAR-based 3D object detection results, with 73.6 NDS and
69.6 mAP on the nuScenes benchmark. The source code will be released at
https://github.com/VDIGPKU/BEV-MAE
- Abstract(参考訳): 既存のLiDARベースの自動走行シナリオのための3Dオブジェクト検出手法は、主にスクラッチの訓練パラダイムを採用している。
残念ながら、このパラダイムは大規模なラベル付きデータに大きく依存しており、そのコレクションは高価で時間を要する可能性がある。
自己教師付き事前学習は、この広範な注釈付きデータへの依存を緩和するための効果的かつ望ましい方法である。
本稿では,lidarを用いた自律運転における3次元物体検出のための効率的なマスク型オートエンコーダプリトレーニングフレームワークbev-maeを提案する。
具体的には、3Dエンコーダ学習特徴表現をBEV視点でガイドし、事前学習中に複雑なデコーダ設計を避けるために、鳥の目視(BEV)誘導マスキング戦略を提案する。
さらに,マスキングポイントクラウド入力の微調整により3次元エンコーダの一貫した受容場サイズを維持するために,学習可能なポイントトークンを導入する。
自律走行シナリオにおける屋外点雲の特性,すなわち遠方の物体の点雲はより疎いことから,3Dエンコーダが物体検出に不可欠な位置情報を学習できるようにする点密度予測を提案する。
実験の結果,BEV-MAEは最先端の自己管理手法を超越し,良好な事前学習効率が得られた。
さらに、TransFusion-Lに基づいて、BEV-MAEは73.6 NDSと69.6 mAPという最先端のLiDARベースの3Dオブジェクト検出結果を達成する。
ソースコードはhttps://github.com/VDIGPKU/BEV-MAEで公開される。
関連論文リスト
- End-to-End 3D Object Detection using LiDAR Point Cloud [0.0]
本稿では,LiDAR点雲の新たなエンコーディングを用いて,自律走行車に近いクラスの位置を推定する手法を提案する。
出力は、シーン内のオブジェクトの位置と向きを3D境界ボックスとシーンオブジェクトのラベルで予測する。
論文 参考訳(メタデータ) (2023-12-24T00:52:14Z) - FocalFormer3D : Focusing on Hard Instance for 3D Object Detection [97.56185033488168]
3次元物体検出における偽陰性(False negatives, FN)は、自動運転において潜在的に危険な状況を引き起こす可能性がある。
本研究では,マルチステージ方式でtextitFN を識別する汎用パイプラインである Hard Instance Probing (HIP) を提案する。
この手法をFocalFormer3Dとしてインスタンス化する。
論文 参考訳(メタデータ) (2023-08-08T20:06:12Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds [13.426810473131642]
Masked AutoEncoder for LiDAR Point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDARポイントクラウドの空間性を直感的に活用する。
新たな再構築アプローチでは、MAELiは空空間と隠された空間を区別する。
これにより、MAELiは基礎となる3次元シーンの幾何学と意味論の理解を得る。
論文 参考訳(メタデータ) (2022-12-14T13:10:27Z) - Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point
Clouds with Masked Occupancy Autoencoders [13.119676419877244]
本研究では,大規模未ラベル屋外LiDAR点雲の事前学習を活用することで,ラベル付き3Dトレーニングデータへの依存を低減する方法を提案する。
本手法では,Occupancy-MAEと呼ばれる自己監督型マスマスマスマスキングの事前学習手法を提案する。
3Dオブジェクト検出では、Occupancy-MAEは、KITTIデータセット上での車検出に必要なラベル付きデータを半減する。
3Dセマンティックセグメンテーションでは、Occupancy-MAEはmIoUでトレーニングをスクラッチから約2%上回っている。
論文 参考訳(メタデータ) (2022-06-20T17:15:50Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - RAANet: Range-Aware Attention Network for LiDAR-based 3D Object
Detection with Auxiliary Density Level Estimation [11.180128679075716]
自律運転のためのLiDARデータから3Dオブジェクトを検出するために,Range-Aware Attention Network (RAANet) が開発された。
RAANetはより強力なBEV機能を抽出し、優れた3Dオブジェクト検出を生成する。
nuScenesデータセットの実験により,提案手法がLiDARを用いた3Dオブジェクト検出の最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-11-18T04:20:13Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。