論文の概要: Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point
Clouds with Masked Occupancy Autoencoders
- arxiv url: http://arxiv.org/abs/2206.09900v7
- Date: Mon, 9 Oct 2023 12:34:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 16:39:58.036470
- Title: Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point
Clouds with Masked Occupancy Autoencoders
- Title(参考訳): Occupancy-MAE: Masked Occupancy Autoencoders を用いた自己学習型大規模LiDAR点雲
- Authors: Chen Min and Xinli Xu and Dawei Zhao and Liang Xiao and Yiming Nie and
Bin Dai
- Abstract要約: 本研究では,大規模未ラベル屋外LiDAR点雲の事前学習を活用することで,ラベル付き3Dトレーニングデータへの依存を低減する方法を提案する。
本手法では,Occupancy-MAEと呼ばれる自己監督型マスマスマスマスキングの事前学習手法を提案する。
3Dオブジェクト検出では、Occupancy-MAEは、KITTIデータセット上での車検出に必要なラベル付きデータを半減する。
3Dセマンティックセグメンテーションでは、Occupancy-MAEはmIoUでトレーニングをスクラッチから約2%上回っている。
- 参考スコア(独自算出の注目度): 13.119676419877244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current perception models in autonomous driving heavily rely on large-scale
labelled 3D data, which is both costly and time-consuming to annotate. This
work proposes a solution to reduce the dependence on labelled 3D training data
by leveraging pre-training on large-scale unlabeled outdoor LiDAR point clouds
using masked autoencoders (MAE). While existing masked point autoencoding
methods mainly focus on small-scale indoor point clouds or pillar-based
large-scale outdoor LiDAR data, our approach introduces a new self-supervised
masked occupancy pre-training method called Occupancy-MAE, specifically
designed for voxel-based large-scale outdoor LiDAR point clouds. Occupancy-MAE
takes advantage of the gradually sparse voxel occupancy structure of outdoor
LiDAR point clouds and incorporates a range-aware random masking strategy and a
pretext task of occupancy prediction. By randomly masking voxels based on their
distance to the LiDAR and predicting the masked occupancy structure of the
entire 3D surrounding scene, Occupancy-MAE encourages the extraction of
high-level semantic information to reconstruct the masked voxel using only a
small number of visible voxels. Extensive experiments demonstrate the
effectiveness of Occupancy-MAE across several downstream tasks. For 3D object
detection, Occupancy-MAE reduces the labelled data required for car detection
on the KITTI dataset by half and improves small object detection by
approximately 2% in AP on the Waymo dataset. For 3D semantic segmentation,
Occupancy-MAE outperforms training from scratch by around 2% in mIoU. For
multi-object tracking, Occupancy-MAE enhances training from scratch by
approximately 1% in terms of AMOTA and AMOTP. Codes are publicly available at
https://github.com/chaytonmin/Occupancy-MAE.
- Abstract(参考訳): 自動運転車の現在の認識モデルは、大規模なラベル付けされた3Dデータに大きく依存している。
本研究では,マスク付きオートエンコーダ(MAE)を用いた大規模未ラベル屋外LiDAR点雲の事前学習を活用することで,ラベル付き3Dトレーニングデータへの依存を低減する方法を提案する。
既存のマスク付きポイント自動符号化方式は、主に小型屋内点雲や柱型大規模屋外LiDARデータに重点を置いているが、本手法では、ボクセルベースの大規模屋外LiDAR点雲に特化して設計されたOccupancy-MAEと呼ばれる自己監督型マスク付き占有事前学習手法を導入する。
Occupancy-MAEは、屋外のLiDAR点雲の緩やかなボクセル占有構造を利用し、レンジ対応のランダムマスキング戦略と、占有予測の前提タスクを取り入れている。
Occupancy-MAEは、LiDARとの距離に基づいてボクセルをランダムにマスキングし、周囲の3Dシーン全体のマスキング占有構造を予測することにより、少数の目に見えるボクセルのみを用いて、ハイレベルなセマンティック情報を抽出し、マスクされたボクセルを再構築する。
大規模な実験は、複数の下流タスクにおけるOccupancy-MAEの有効性を示す。
3Dオブジェクト検出では、Occupancy-MAEは、KITTIデータセット上の車検出に必要なラベル付きデータを半減し、Waymoデータセット上のAPの約2%の小さなオブジェクト検出を改善する。
3Dセマンティックセグメンテーションでは、Occupancy-MAEはmIoUでトレーニングをスクラッチから約2%上回っている。
マルチオブジェクトトラッキングでは、Occupancy-MAEはAMOTAとAMOTPで約1%のトレーニングをスクラッチから強化する。
コードはhttps://github.com/chaytonmin/Occupancy-MAEで公開されている。
関連論文リスト
- Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Sense Less, Generate More: Pre-training LiDAR Perception with Masked Autoencoders for Ultra-Efficient 3D Sensing [0.6340101348986665]
本稿では,環境の広範囲なトレーニングに基づいて予測可能か,あるいは全体的な予測精度に限界がある環境の一部ではなく,環境の一部を生成する,破壊的かつフラグアルなLiDAR知覚データフローを提案する。
この目的のために提案した生成前訓練戦略であるR-MAE(Radially masked autoencoding)は、オンフィールド操作中にランダムに生成された角状領域のレーザパワーを選択的に活性化制御することにより、典型的なLiDARシステムでも容易に実装できる。
論文 参考訳(メタデータ) (2024-06-12T03:02:54Z) - Learning Shared RGB-D Fields: Unified Self-supervised Pre-training for Label-efficient LiDAR-Camera 3D Perception [17.11366229887873]
我々は、統合事前訓練戦略、NeRF-Supervised Masked Auto(NS-MAE)を導入する。
NS-MAEは、外観と幾何学の両方を符号化するNeRFの能力を利用して、マルチモーダルデータの効率的なマスク付き再構築を可能にする。
結果: NS-MAE は SOTA 事前学習法よりも優れており,各モードに対して個別の戦略を用いる。
論文 参考訳(メタデータ) (2024-05-28T08:13:49Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds [13.426810473131642]
Masked AutoEncoder for LiDAR Point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDARポイントクラウドの空間性を直感的に活用する。
新たな再構築アプローチでは、MAELiは空空間と隠された空間を区別する。
これにより、MAELiは基礎となる3次元シーンの幾何学と意味論の理解を得る。
論文 参考訳(メタデータ) (2022-12-14T13:10:27Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - Masked Autoencoders for Self-Supervised Learning on Automotive Point
Clouds [2.8544513613730205]
Maskedオートエンコーディングは、テキスト、画像、そして最近ではポイントクラウドのためのTransformerモデルの事前トレーニングパラダイムとして成功している。
本稿では,ボクセル表現のためのマスク付き自動符号化事前学習方式であるVoxelMAEを提案する。
提案手法は,難解なnuScenesデータセット上で1.75mAPポイントと1.05NDSで3D OD性能を向上する。
論文 参考訳(メタデータ) (2022-07-01T16:31:45Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Lifting 2D Object Locations to 3D by Discounting LiDAR Outliers across
Objects and Views [70.1586005070678]
本稿では,2次元マスクオブジェクトの予測と生のLiDAR点雲を自動的に3次元境界ボックスに変換するシステムを提案する。
これらの手法は, より複雑なパイプラインや3Dモデル, 付加的な人為的な事前情報ソースを使用するにもかかわらず, 従来よりもはるかに優れていた。
論文 参考訳(メタデータ) (2021-09-16T13:01:13Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。