論文の概要: Multi-Scale Neighborhood Occupancy Masked Autoencoder for Self-Supervised Learning in LiDAR Point Clouds
- arxiv url: http://arxiv.org/abs/2502.20316v1
- Date: Thu, 27 Feb 2025 17:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:22.975632
- Title: Multi-Scale Neighborhood Occupancy Masked Autoencoder for Self-Supervised Learning in LiDAR Point Clouds
- Title(参考訳): LiDAR点群における自己教師付き学習のためのマルチスケール隣り合わせマスクオートエンコーダ
- Authors: Mohamed Abdelsamad, Michael Ulrich, Claudius Gläser, Abhinav Valada,
- Abstract要約: Masked Autoencoders (MAE) は、視覚以降の自己教師型学習(SSL)において、大きな可能性を秘めている。
自動走行に使用されるLiDARの点雲は、3Dボリュームの大部分を空いているため、MAEにとって特に困難である。
本研究では,マスク付き占有再建を非マスクボクセルの近傍にのみ導入することで,上記の課題を克服する新しい近隣居住環境(NomaE)を提案する。
- 参考スコア(独自算出の注目度): 9.994719163112416
- License:
- Abstract: Masked autoencoders (MAE) have shown tremendous potential for self-supervised learning (SSL) in vision and beyond. However, point clouds from LiDARs used in automated driving are particularly challenging for MAEs since large areas of the 3D volume are empty. Consequently, existing work suffers from leaking occupancy information into the decoder and has significant computational complexity, thereby limiting the SSL pre-training to only 2D bird's eye view encoders in practice. In this work, we propose the novel neighborhood occupancy MAE (NOMAE) that overcomes the aforementioned challenges by employing masked occupancy reconstruction only in the neighborhood of non-masked voxels. We incorporate voxel masking and occupancy reconstruction at multiple scales with our proposed hierarchical mask generation technique to capture features of objects of different sizes in the point cloud. NOMAEs are extremely flexible and can be directly employed for SSL in existing 3D architectures. We perform extensive evaluations on the nuScenes and Waymo Open datasets for the downstream perception tasks of semantic segmentation and 3D object detection, comparing with both discriminative and generative SSL methods. The results demonstrate that NOMAE sets the new state-of-the-art on multiple benchmarks for multiple point cloud perception tasks.
- Abstract(参考訳): Masked Autoencoders (MAE) は、視覚以降の自己教師型学習(SSL)において、大きな可能性を秘めている。
しかし、3Dボリュームの広い領域は空であるため、自動走行に使用されるLiDARの点雲は特にMAEにとって困難である。
その結果、既存の作業はデコーダに占有情報を漏洩させることに悩まされ、計算の複雑さが大きいため、SSLの事前トレーニングは実際には2次元の鳥の目視エンコーダに限られる。
本研究は,マスク付き占有再建を非マスクボクセルの近傍にのみ導入することで,上記の課題を克服する新しい近隣居住環境(NomaE)を提案する。
我々は,複数のスケールでボクセルマスキングと占有再構成を組み込んだ階層マスク生成手法を提案し,点雲の異なる大きさの物体の特徴を捉えた。
NOMAEは非常に柔軟で、既存の3DアーキテクチャでSSLに直接使用することができる。
セマンティックセグメンテーションと3次元オブジェクト検出の下流認識タスクにおけるnuScenesとWaymo Openデータセットについて、識別と生成の両方のSSL手法と比較し、広範囲な評価を行った。
その結果,NOMAEは複数点のクラウド認識タスクに対して,新しい最先端のベンチマークを複数ベンチマークに設定した。
関連論文リスト
- Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked
Autoencoder [21.73287941143304]
Multi-Modality Masked AutoEncoders (MAE) 法は2次元画像と3次元点雲の両方を事前学習に利用している。
本稿では、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。
提案手法は,様々な下流タスクにおいて,最先端のタスクよりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds [13.426810473131642]
Masked AutoEncoder for LiDAR Point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDARポイントクラウドの空間性を直感的に活用する。
新たな再構築アプローチでは、MAELiは空空間と隠された空間を区別する。
これにより、MAELiは基礎となる3次元シーンの幾何学と意味論の理解を得る。
論文 参考訳(メタデータ) (2022-12-14T13:10:27Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - A Survey on Masked Autoencoder for Self-supervised Learning in Vision
and Beyond [64.85076239939336]
視覚における自己教師付き学習(SSL)は、NLPと同様の軌道をとる可能性がある。
マスク付き予測(例えばBERT)による生成前文タスクは、NLPにおけるデファクトスタンダードSSLプラクティスとなっている。
マスク画像モデリングの成功により、マスキングオートエンコーダが復活した。
論文 参考訳(メタデータ) (2022-07-30T09:59:28Z) - Masked Autoencoders for Self-Supervised Learning on Automotive Point
Clouds [2.8544513613730205]
Maskedオートエンコーディングは、テキスト、画像、そして最近ではポイントクラウドのためのTransformerモデルの事前トレーニングパラダイムとして成功している。
本稿では,ボクセル表現のためのマスク付き自動符号化事前学習方式であるVoxelMAEを提案する。
提案手法は,難解なnuScenesデータセット上で1.75mAPポイントと1.05NDSで3D OD性能を向上する。
論文 参考訳(メタデータ) (2022-07-01T16:31:45Z) - Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point
Clouds with Masked Occupancy Autoencoders [13.119676419877244]
本研究では,大規模未ラベル屋外LiDAR点雲の事前学習を活用することで,ラベル付き3Dトレーニングデータへの依存を低減する方法を提案する。
本手法では,Occupancy-MAEと呼ばれる自己監督型マスマスマスマスキングの事前学習手法を提案する。
3Dオブジェクト検出では、Occupancy-MAEは、KITTIデータセット上での車検出に必要なラベル付きデータを半減する。
3Dセマンティックセグメンテーションでは、Occupancy-MAEはmIoUでトレーニングをスクラッチから約2%上回っている。
論文 参考訳(メタデータ) (2022-06-20T17:15:50Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。