論文の概要: Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point
Clouds with Masked Occupancy Autoencoders
- arxiv url: http://arxiv.org/abs/2206.09900v6
- Date: Sat, 29 Apr 2023 00:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 19:56:19.914623
- Title: Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point
Clouds with Masked Occupancy Autoencoders
- Title(参考訳): Occupancy-MAE: Masked Occupancy Autoencoders を用いた自己学習型大規模LiDAR点雲
- Authors: Chen Min and Xinli Xu and Dawei Zhao and Liang Xiao and Yiming Nie and
Bin Dai
- Abstract要約: 自動運転における現在の知覚モデルは、大規模ラベル付きLiDARデータに大きく依存している。
Occupancy-MAEという,大規模屋外LiDAR点を対象とした自己教師型マスク学習手法を提案する。
この結果から, マスク付き自動符号化により, 未ラベルの大規模LiDAR点群を事前学習し, 自律運転の3次元知覚能力を高めることが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 8.086311182113274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current perception models in autonomous driving rely heavily on large-scale
labeled LiDAR data, which is costly and time-consuming to annotate. In this
work, we aim to facilitate research on self-supervised masked learning using
the vast amount of unlabeled LiDAR data available in autonomous driving.
However, existing masked point autoencoding methods only focus on small-scale
indoor point clouds and struggle to adapt to outdoor scenes, which usually have
a large number of non-evenly distributed LiDAR points. To address these
challenges, we propose a new self-supervised masked learning method named
Occupancy-MAE, specifically designed for large-scale outdoor LiDAR points. We
leverage the gradually sparse occupancy structure of large-scale outdoor LiDAR
point clouds and introduce a range-aware random masking strategy and a pretext
task of occupancy prediction. Occupancy-MAE randomly masks voxels of LiDAR
point clouds based on their distance to LiDAR and predicts the masked occupancy
structure of the whole 3D scene. This simple occupancy prediction objective
encourages Occupancy-MAE to extract high-level semantic information to recover
the masked voxel from only a small amount of visible voxels. Extensive
experiments demonstrate the effectiveness of Occupancy-MAE across several
downstream tasks. For the 3D object detection task, Occupancy-MAE reduces the
labeled data required for car detection on KITTI by half and boosts small
object detection by around 2% mAP on Waymo. For the 3D semantic segmentation
task, Occupancy-MAE outperforms training from scratch by around 2% mIOU on
nuScenes. For the unsupervised domain adaptation task, Occupancy-MAE improves
the performance by about 0.5\% ~ 1% mAP. Our results show that it is feasible
to pre-train unlabeled large-scale LiDAR point clouds with masked autoencoding
to enhance the 3D perception ability of autonomous driving.
- Abstract(参考訳): 自動運転における現在の認識モデルは、大規模ラベル付きLiDARデータに大きく依存している。
本研究では,自動運転において利用可能な大量のラベルなしLiDARデータを用いて,自己指導型マスク学習の研究を促進することを目的とする。
しかしながら、既存のマスク付きポイント自動符号化法は、小規模の屋内点雲にのみ焦点をあて、通常、多くの分散されていないLiDAR点を持つ屋外のシーンに適応するのに苦労する。
これらの課題に対処するために,大規模屋外LiDARポイントに特化して設計されたOccupancy-MAEという自己教師型マスク学習手法を提案する。
本研究では,大規模ライダ点雲の空間占有構造を緩やかに活用し,レンジアウェアなランダムマスキング戦略と占有予測のプリテキストタスクを導入する。
Occupancy-MAEは、LiDARへの距離に基づいて、LiDAR点雲のボクセルをランダムにマスクし、3Dシーン全体のマスクされた占有構造を予測する。
この単純な占有予測目的により、Occupancy-MAEは、少量の目に見えるボクセルからマスクされたボクセルを回収するために、高いレベルの意味情報を抽出する。
大規模な実験は、複数の下流タスクにおけるOccupancy-MAEの有効性を示す。
3dオブジェクト検出タスクでは、kittiの車検出に必要なラベル付きデータを半分に削減し、waymo上の小さなオブジェクト検出を約2%増加させる。
3Dセマンティックセグメンテーションタスクでは、Occupancy-MAEはnuScenesでトレーニングをスクラッチから約2%のmIOUで上回ります。
教師なしのドメイン適応タスクでは、Occupancy-MAEは約0.5\% ~ 1% mAPの性能を改善する。
以上の結果から,未ラベルの大規模lidar点雲をマスク付きオートエンコーディングで事前訓練することで,自律運転の3次元知覚能力を向上させることが可能であった。
関連論文リスト
- Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Sense Less, Generate More: Pre-training LiDAR Perception with Masked Autoencoders for Ultra-Efficient 3D Sensing [0.6340101348986665]
本稿では,環境の広範囲なトレーニングに基づいて予測可能か,あるいは全体的な予測精度に限界がある環境の一部ではなく,環境の一部を生成する,破壊的かつフラグアルなLiDAR知覚データフローを提案する。
この目的のために提案した生成前訓練戦略であるR-MAE(Radially masked autoencoding)は、オンフィールド操作中にランダムに生成された角状領域のレーザパワーを選択的に活性化制御することにより、典型的なLiDARシステムでも容易に実装できる。
論文 参考訳(メタデータ) (2024-06-12T03:02:54Z) - Learning Shared RGB-D Fields: Unified Self-supervised Pre-training for Label-efficient LiDAR-Camera 3D Perception [17.11366229887873]
我々は、統合事前訓練戦略、NeRF-Supervised Masked Auto(NS-MAE)を導入する。
NS-MAEは、外観と幾何学の両方を符号化するNeRFの能力を利用して、マルチモーダルデータの効率的なマスク付き再構築を可能にする。
結果: NS-MAE は SOTA 事前学習法よりも優れており,各モードに対して個別の戦略を用いる。
論文 参考訳(メタデータ) (2024-05-28T08:13:49Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds [13.426810473131642]
Masked AutoEncoder for LiDAR Point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDARポイントクラウドの空間性を直感的に活用する。
新たな再構築アプローチでは、MAELiは空空間と隠された空間を区別する。
これにより、MAELiは基礎となる3次元シーンの幾何学と意味論の理解を得る。
論文 参考訳(メタデータ) (2022-12-14T13:10:27Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - Masked Autoencoders for Self-Supervised Learning on Automotive Point
Clouds [2.8544513613730205]
Maskedオートエンコーディングは、テキスト、画像、そして最近ではポイントクラウドのためのTransformerモデルの事前トレーニングパラダイムとして成功している。
本稿では,ボクセル表現のためのマスク付き自動符号化事前学習方式であるVoxelMAEを提案する。
提案手法は,難解なnuScenesデータセット上で1.75mAPポイントと1.05NDSで3D OD性能を向上する。
論文 参考訳(メタデータ) (2022-07-01T16:31:45Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Lifting 2D Object Locations to 3D by Discounting LiDAR Outliers across
Objects and Views [70.1586005070678]
本稿では,2次元マスクオブジェクトの予測と生のLiDAR点雲を自動的に3次元境界ボックスに変換するシステムを提案する。
これらの手法は, より複雑なパイプラインや3Dモデル, 付加的な人為的な事前情報ソースを使用するにもかかわらず, 従来よりもはるかに優れていた。
論文 参考訳(メタデータ) (2021-09-16T13:01:13Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。