論文の概要: Masked Autoencoders for Self-Supervised Learning on Automotive Point
Clouds
- arxiv url: http://arxiv.org/abs/2207.00531v1
- Date: Fri, 1 Jul 2022 16:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 15:45:23.615569
- Title: Masked Autoencoders for Self-Supervised Learning on Automotive Point
Clouds
- Title(参考訳): 自動車点群における自己教師付き学習のためのマスクオートエンコーダ
- Authors: Georg Hess, Johan Jaxing, Elias Svensson, David Hagerman, Christoffer
Petersson, Lennart Svensson
- Abstract要約: Maskedオートエンコーディングは、テキスト、画像、そして最近ではポイントクラウドのためのTransformerモデルの事前トレーニングパラダイムとして成功している。
本稿では,ボクセル表現のためのマスク付き自動符号化事前学習方式であるVoxelMAEを提案する。
提案手法は,難解なnuScenesデータセット上で1.75mAPポイントと1.05NDSで3D OD性能を向上する。
- 参考スコア(独自算出の注目度): 2.8544513613730205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked autoencoding has become a successful pre-training paradigm for
Transformer models for text, images, and recently, point clouds. Raw automotive
datasets are a suitable candidate for self-supervised pre-training as they
generally are cheap to collect compared to annotations for tasks like 3D object
detection (OD). However, development of masked autoencoders for point clouds
has focused solely on synthetic and indoor data. Consequently, existing methods
have tailored their representations and models toward point clouds which are
small, dense and have homogeneous point density. In this work, we study masked
autoencoding for point clouds in an automotive setting, which are sparse and
for which the point density can vary drastically among objects in the same
scene. To this end, we propose Voxel-MAE, a simple masked autoencoding
pre-training scheme designed for voxel representations. We pre-train the
backbone of a Transformer-based 3D object detector to reconstruct masked voxels
and to distinguish between empty and non-empty voxels. Our method improves the
3D OD performance by 1.75 mAP points and 1.05 NDS on the challenging nuScenes
dataset. Compared to existing self-supervised methods for automotive data,
Voxel-MAE displays up to $2\times$ performance increase. Further, we show that
by pre-training with Voxel-MAE, we require only 40% of the annotated data to
outperform a randomly initialized equivalent. Code will be released.
- Abstract(参考訳): Maskedオートエンコーディングは、テキスト、画像、最近ではポイントクラウドのためのTransformerモデルの事前トレーニングパラダイムとして成功している。
生の自動車データセットは、一般的に3dオブジェクト検出(od)のようなタスクのアノテーションに比べて収集が安価であるため、自己教師あり事前トレーニングに適した候補である。
しかし、点雲のためのマスク付きオートエンコーダの開発は、合成データと室内データのみに焦点を当てている。
その結果、既存の手法は、小さく、密度が高く、均一な点密度を持つ点雲への表現とモデルを調整した。
本研究では,自動車環境における点雲のマスク付きオートエンコーディングについて検討した。
この目的のために,voxel表現用に設計された簡単なマスク付き自動エンコーディングプリトレーニングスキームvoxel-maeを提案する。
トランスフォーマーを用いた3Dオブジェクト検出器のバックボーンを事前訓練し、マスク付きボクセルを再構築し、空のボクセルと空のボクセルを区別する。
提案手法は,難解なnuScenesデータセット上で1.75mAPポイントと1.05NDSで3D OD性能を向上する。
Voxel-MAEは、既存の自動車データに対する自己管理手法と比較して、最大2ドル以上のパフォーマンス向上を示す。
さらに,voxel-mae を事前学習することにより,無作為初期化等価値を上回るアノテートデータの 40% しか必要としないことを示す。
コードはリリースされる。
関連論文リスト
- BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - SeRP: Self-Supervised Representation Learning Using Perturbed Point
Clouds [6.29475963948119]
SeRPはエンコーダ・デコーダアーキテクチャで構成されており、乱れや破損した点雲を入力として利用する。
トランスフォーマーとPointNetベースのオートエンコーダを使用しました。
論文 参考訳(メタデータ) (2022-09-13T15:22:36Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - Masked Autoencoders in 3D Point Cloud Representation Learning [7.617783375837524]
3Dポイントクラウド表現学習におけるマスク付きオートエンコーダを提案する(略してMAE3D)。
最初はインプットポイントクラウドをパッチに分割し、その一部をマスクし、次にPatch Embedding Moduleを使って未成熟のパッチの特徴を抽出しました。
総合的な実験により、ポイントクラウドパッチからMAE3Dによって抽出された局所的特徴が下流分類タスクに有用であることが示されている。
論文 参考訳(メタデータ) (2022-07-04T16:13:27Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z) - Masked Autoencoders for Point Cloud Self-supervised Learning [27.894216954216716]
本稿では,ポイントクラウドによる自己教師型学習のためのマスク付きオートエンコーダの巧妙なスキームを提案する。
入力点雲を不規則点パッチに分割し、ランダムに高い比で隠蔽する。
標準のトランスフォーマーベースのオートエンコーダは、非対称な設計とシフトマスクトークン操作を備え、非マスク点パッチから高い遅延特徴を学習する。
論文 参考訳(メタデータ) (2022-03-13T09:23:39Z) - Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point
Modeling [104.82953953453503]
BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。
提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
論文 参考訳(メタデータ) (2021-11-29T18:59:03Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。