論文の概要: BEV-MAE: Bird's Eye View Masked Autoencoders for Outdoor Point Cloud
Pre-training
- arxiv url: http://arxiv.org/abs/2212.05758v1
- Date: Mon, 12 Dec 2022 08:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 16:46:17.205021
- Title: BEV-MAE: Bird's Eye View Masked Autoencoders for Outdoor Point Cloud
Pre-training
- Title(参考訳): bev-mae:アウトドア・ポイント・クラウド・プレトレーニングのためのバードズ・アイ・ビューマスク付きオートエンコーダ
- Authors: Zhiwei Lin, Yongtao Wang
- Abstract要約: 本稿では,屋外の点雲上での3次元物体検出のためのマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には,まず3次元エンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
最後に,3Dエンコーダの一貫した受容フィールドサイズを維持するために,学習可能な点トークンを導入する。
- 参考スコア(独自算出の注目度): 10.490984042520642
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Current outdoor LiDAR-based 3D object detection methods mainly adopt the
training-from-scratch paradigm. Unfortunately, this paradigm heavily relies on
large-scale labeled data, whose collection can be expensive and time-consuming.
Self-supervised pre-training is an effective and desirable way to alleviate
this dependence on extensive annotated data. Recently, masked modeling has
become a successful self-supervised learning approach for point clouds.
However, current works mainly focus on synthetic or indoor datasets. When
applied to large-scale and sparse outdoor point clouds, they fail to yield
satisfactory results. In this work, we present BEV-MAE, a simple masked
autoencoder pre-training framework for 3D object detection on outdoor point
clouds. Specifically, we first propose a bird's eye view (BEV) guided masking
strategy to guide the 3D encoder learning feature representation in a BEV
perspective and avoid complex decoder design during pre-training. Besides, we
introduce a learnable point token to maintain a consistent receptive field size
of the 3D encoder with fine-tuning for masked point cloud inputs. Finally,
based on the property of outdoor point clouds, i.e., the point clouds of
distant objects are more sparse, we propose point density prediction to enable
the 3D encoder to learn location information, which is essential for object
detection. Experimental results show that BEV-MAE achieves new state-of-the-art
self-supervised results on both Waymo and nuScenes with diverse 3D object
detectors. Furthermore, with only 20% data and 7% training cost during
pre-training, BEV-MAE achieves comparable performance with the state-of-the-art
method ProposalContrast. The source code and pre-trained models will be made
publicly available.
- Abstract(参考訳): 現在の屋外LiDARに基づく3Dオブジェクト検出法は、主にスクラッチの訓練パラダイムを採用している。
残念ながら、このパラダイムは大規模なラベル付きデータに大きく依存しており、そのコレクションは高価で時間を要する可能性がある。
自己教師付き事前学習は、この広範な注釈付きデータへの依存を緩和するための効果的かつ望ましい方法である。
近年,マスキングモデリングは,ポイントクラウドのための自己教師あり学習手法として成功している。
しかし、現在は主に合成データや屋内データセットに焦点を当てている。
大規模で希少な屋外点雲に適用すると、良好な結果が得られない。
本稿では,アウトドア・ポイント・クラウド上での3次元物体検出のための簡易マスク型オートエンコーダプリトレーニングフレームワークbev-maeを提案する。
具体的には、まず、BEV視点で3Dエンコーダ学習特徴表現を誘導し、事前学習中に複雑なデコーダ設計を避けるために、鳥の目視(BEV)誘導マスキング戦略を提案する。
さらに,マスキングポイントクラウド入力の微調整による3次元エンコーダの一貫した受容フィールドサイズを維持するために,学習可能なポイントトークンを導入する。
最後に、3次元エンコーダが物体検出に不可欠な位置情報を学習できるようにするために, 遠方物体の点雲がより疎いという, 屋外点雲の性質に基づき, 点密度予測を提案する。
実験結果から,BEV-MAEは,多種多様な3次元物体検出器を用いたWaymoとnuSceneの両方で,最先端の自己監督結果が得られることがわかった。
さらに、事前トレーニング中のトレーニングコストはわずか20%のデータと7%で、最先端のメソッドの提案と同等のパフォーマンスを達成している。
ソースコードと事前トレーニングされたモデルが公開される予定だ。
関連論文リスト
- End-to-End 3D Object Detection using LiDAR Point Cloud [0.0]
本稿では,LiDAR点雲の新たなエンコーディングを用いて,自律走行車に近いクラスの位置を推定する手法を提案する。
出力は、シーン内のオブジェクトの位置と向きを3D境界ボックスとシーンオブジェクトのラベルで予測する。
論文 参考訳(メタデータ) (2023-12-24T00:52:14Z) - FocalFormer3D : Focusing on Hard Instance for 3D Object Detection [97.56185033488168]
3次元物体検出における偽陰性(False negatives, FN)は、自動運転において潜在的に危険な状況を引き起こす可能性がある。
本研究では,マルチステージ方式でtextitFN を識別する汎用パイプラインである Hard Instance Probing (HIP) を提案する。
この手法をFocalFormer3Dとしてインスタンス化する。
論文 参考訳(メタデータ) (2023-08-08T20:06:12Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds [13.426810473131642]
Masked AutoEncoder for LiDAR Point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDARポイントクラウドの空間性を直感的に活用する。
新たな再構築アプローチでは、MAELiは空空間と隠された空間を区別する。
これにより、MAELiは基礎となる3次元シーンの幾何学と意味論の理解を得る。
論文 参考訳(メタデータ) (2022-12-14T13:10:27Z) - Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point
Clouds with Masked Occupancy Autoencoders [13.119676419877244]
本研究では,大規模未ラベル屋外LiDAR点雲の事前学習を活用することで,ラベル付き3Dトレーニングデータへの依存を低減する方法を提案する。
本手法では,Occupancy-MAEと呼ばれる自己監督型マスマスマスマスキングの事前学習手法を提案する。
3Dオブジェクト検出では、Occupancy-MAEは、KITTIデータセット上での車検出に必要なラベル付きデータを半減する。
3Dセマンティックセグメンテーションでは、Occupancy-MAEはmIoUでトレーニングをスクラッチから約2%上回っている。
論文 参考訳(メタデータ) (2022-06-20T17:15:50Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - RAANet: Range-Aware Attention Network for LiDAR-based 3D Object
Detection with Auxiliary Density Level Estimation [11.180128679075716]
自律運転のためのLiDARデータから3Dオブジェクトを検出するために,Range-Aware Attention Network (RAANet) が開発された。
RAANetはより強力なBEV機能を抽出し、優れた3Dオブジェクト検出を生成する。
nuScenesデータセットの実験により,提案手法がLiDARを用いた3Dオブジェクト検出の最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-11-18T04:20:13Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。