論文の概要: Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point
Clouds with Masked Occupancy Autoencoders
- arxiv url: http://arxiv.org/abs/2206.09900v6
- Date: Sat, 29 Apr 2023 00:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 19:56:19.914623
- Title: Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point
Clouds with Masked Occupancy Autoencoders
- Title(参考訳): Occupancy-MAE: Masked Occupancy Autoencoders を用いた自己学習型大規模LiDAR点雲
- Authors: Chen Min and Xinli Xu and Dawei Zhao and Liang Xiao and Yiming Nie and
Bin Dai
- Abstract要約: 自動運転における現在の知覚モデルは、大規模ラベル付きLiDARデータに大きく依存している。
Occupancy-MAEという,大規模屋外LiDAR点を対象とした自己教師型マスク学習手法を提案する。
この結果から, マスク付き自動符号化により, 未ラベルの大規模LiDAR点群を事前学習し, 自律運転の3次元知覚能力を高めることが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 8.086311182113274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current perception models in autonomous driving rely heavily on large-scale
labeled LiDAR data, which is costly and time-consuming to annotate. In this
work, we aim to facilitate research on self-supervised masked learning using
the vast amount of unlabeled LiDAR data available in autonomous driving.
However, existing masked point autoencoding methods only focus on small-scale
indoor point clouds and struggle to adapt to outdoor scenes, which usually have
a large number of non-evenly distributed LiDAR points. To address these
challenges, we propose a new self-supervised masked learning method named
Occupancy-MAE, specifically designed for large-scale outdoor LiDAR points. We
leverage the gradually sparse occupancy structure of large-scale outdoor LiDAR
point clouds and introduce a range-aware random masking strategy and a pretext
task of occupancy prediction. Occupancy-MAE randomly masks voxels of LiDAR
point clouds based on their distance to LiDAR and predicts the masked occupancy
structure of the whole 3D scene. This simple occupancy prediction objective
encourages Occupancy-MAE to extract high-level semantic information to recover
the masked voxel from only a small amount of visible voxels. Extensive
experiments demonstrate the effectiveness of Occupancy-MAE across several
downstream tasks. For the 3D object detection task, Occupancy-MAE reduces the
labeled data required for car detection on KITTI by half and boosts small
object detection by around 2% mAP on Waymo. For the 3D semantic segmentation
task, Occupancy-MAE outperforms training from scratch by around 2% mIOU on
nuScenes. For the unsupervised domain adaptation task, Occupancy-MAE improves
the performance by about 0.5\% ~ 1% mAP. Our results show that it is feasible
to pre-train unlabeled large-scale LiDAR point clouds with masked autoencoding
to enhance the 3D perception ability of autonomous driving.
- Abstract(参考訳): 自動運転における現在の認識モデルは、大規模ラベル付きLiDARデータに大きく依存している。
本研究では,自動運転において利用可能な大量のラベルなしLiDARデータを用いて,自己指導型マスク学習の研究を促進することを目的とする。
しかしながら、既存のマスク付きポイント自動符号化法は、小規模の屋内点雲にのみ焦点をあて、通常、多くの分散されていないLiDAR点を持つ屋外のシーンに適応するのに苦労する。
これらの課題に対処するために,大規模屋外LiDARポイントに特化して設計されたOccupancy-MAEという自己教師型マスク学習手法を提案する。
本研究では,大規模ライダ点雲の空間占有構造を緩やかに活用し,レンジアウェアなランダムマスキング戦略と占有予測のプリテキストタスクを導入する。
Occupancy-MAEは、LiDARへの距離に基づいて、LiDAR点雲のボクセルをランダムにマスクし、3Dシーン全体のマスクされた占有構造を予測する。
この単純な占有予測目的により、Occupancy-MAEは、少量の目に見えるボクセルからマスクされたボクセルを回収するために、高いレベルの意味情報を抽出する。
大規模な実験は、複数の下流タスクにおけるOccupancy-MAEの有効性を示す。
3dオブジェクト検出タスクでは、kittiの車検出に必要なラベル付きデータを半分に削減し、waymo上の小さなオブジェクト検出を約2%増加させる。
3Dセマンティックセグメンテーションタスクでは、Occupancy-MAEはnuScenesでトレーニングをスクラッチから約2%のmIOUで上回ります。
教師なしのドメイン適応タスクでは、Occupancy-MAEは約0.5\% ~ 1% mAPの性能を改善する。
以上の結果から,未ラベルの大規模lidar点雲をマスク付きオートエンコーディングで事前訓練することで,自律運転の3次元知覚能力を向上させることが可能であった。
関連論文リスト
- OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous
Driving [84.22159537581742]
職業予測は一般表現の学習に有望であることが示されている。
SPOTは、ポイントクラウド拡張にビーム再サンプリング技術を使用し、クラスバランス戦略を適用している。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds [13.426810473131642]
Masked AutoEncoder for LiDAR Point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDARポイントクラウドの空間性を直感的に活用する。
新たな再構築アプローチでは、MAELiは空空間と隠された空間を区別する。
これにより、MAELiは基礎となる3次元シーンの幾何学と意味論の理解を得る。
論文 参考訳(メタデータ) (2022-12-14T13:10:27Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for
Autonomous Driving [34.119642131912485]
より巧妙なフレームワークであるLiDAR誘導弱監視インスタンス(LWSIS)を提示する。
LWSISは市販の3Dデータ、すなわちポイントクラウドと3Dボックスを2Dイメージインスタンスセグメンテーションモデルをトレーニングするための自然な弱い監督手段として使用している。
我々のLWSISは、訓練中のマルチモーダルデータの補完情報を利用するだけでなく、密集した2Dマスクのコストを大幅に削減します。
論文 参考訳(メタデータ) (2022-12-07T08:08:01Z) - Masked Autoencoders for Self-Supervised Learning on Automotive Point
Clouds [2.8544513613730205]
Maskedオートエンコーディングは、テキスト、画像、そして最近ではポイントクラウドのためのTransformerモデルの事前トレーニングパラダイムとして成功している。
本稿では,ボクセル表現のためのマスク付き自動符号化事前学習方式であるVoxelMAEを提案する。
提案手法は,難解なnuScenesデータセット上で1.75mAPポイントと1.05NDSで3D OD性能を向上する。
論文 参考訳(メタデータ) (2022-07-01T16:31:45Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Lifting 2D Object Locations to 3D by Discounting LiDAR Outliers across
Objects and Views [70.1586005070678]
本稿では,2次元マスクオブジェクトの予測と生のLiDAR点雲を自動的に3次元境界ボックスに変換するシステムを提案する。
これらの手法は, より複雑なパイプラインや3Dモデル, 付加的な人為的な事前情報ソースを使用するにもかかわらず, 従来よりもはるかに優れていた。
論文 参考訳(メタデータ) (2021-09-16T13:01:13Z) - MASS: Multi-Attentional Semantic Segmentation of LiDAR Data for Dense
Top-View Understanding [27.867824780748606]
運転シーンの高密度トップビュー理解のためのマルチアテンショナルセマンティックモデルMASSを紹介する。
本フレームワークは柱状および占有的特徴に基づいており、3つの注目型ビルディングブロックから構成されている。
本モデルは,KITTI-3Dデータセット上での3次元物体検出に極めて有効であることが示されている。
論文 参考訳(メタデータ) (2021-07-01T10:19:32Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。