論文の概要: Masked Autoencoders for Point Cloud Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2203.06604v1
- Date: Sun, 13 Mar 2022 09:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 16:08:10.912638
- Title: Masked Autoencoders for Point Cloud Self-supervised Learning
- Title(参考訳): ポイントクラウド自己教師型学習のためのマスクオートエンコーダ
- Authors: Yatian Pang, Wenxiao Wang, Francis E.H. Tay, Wei Liu, Yonghong Tian,
Li Yuan
- Abstract要約: 本稿では,ポイントクラウドによる自己教師型学習のためのマスク付きオートエンコーダの巧妙なスキームを提案する。
入力点雲を不規則点パッチに分割し、ランダムに高い比で隠蔽する。
標準のトランスフォーマーベースのオートエンコーダは、非対称な設計とシフトマスクトークン操作を備え、非マスク点パッチから高い遅延特徴を学習する。
- 参考スコア(独自算出の注目度): 27.894216954216716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a promising scheme of self-supervised learning, masked autoencoding has
significantly advanced natural language processing and computer vision.
Inspired by this, we propose a neat scheme of masked autoencoders for point
cloud self-supervised learning, addressing the challenges posed by point
cloud's properties, including leakage of location information and uneven
information density. Concretely, we divide the input point cloud into irregular
point patches and randomly mask them at a high ratio. Then, a standard
Transformer based autoencoder, with an asymmetric design and a shifting mask
tokens operation, learns high-level latent features from unmasked point
patches, aiming to reconstruct the masked point patches. Extensive experiments
show that our approach is efficient during pre-training and generalizes well on
various downstream tasks. Specifically, our pre-trained models achieve 84.52\%
accuracy on ScanObjectNN and 94.04% accuracy on ModelNet40, outperforming all
the other self-supervised learning methods. We show with our scheme, a simple
architecture entirely based on standard Transformers can surpass dedicated
Transformer models from supervised learning. Our approach also advances
state-of-the-art accuracies by 1.5%-2.3% in the few-shot object classification.
Furthermore, our work inspires the feasibility of applying unified
architectures from languages and images to the point cloud.
- Abstract(参考訳): 自己教師付き学習の有望なスキームとして、マスク付きオートエンコーディングは、自然言語処理とコンピュータビジョンを大きく進歩させた。
そこで本研究では,ポイントクラウドの自己教師型学習のためのマスク付きオートエンコーダの巧妙なスキームを提案し,位置情報の漏洩や不均一な情報密度など,ポイントクラウドの特性がもたらす課題に対処する。
具体的には,入力点雲を不規則点パッチに分割し,ランダムに高い比で隠蔽する。
そして、非対称な設計とシフトマスクトークン操作を備えた標準変圧器ベースのオートエンコーダは、マスク点パッチから高レベルな潜伏特徴を学習し、マスク点パッチを再構築する。
広範な実験により,本手法は事前学習時の効率が良く,様々な下流タスクをうまく一般化できることが示された。
具体的には、ScanObjectNNで84.52\%の精度、ModelNet40で94.04%の精度を達成し、他の教師あり学習方法よりも優れています。
標準トランスフォーマーをベースとするシンプルなアーキテクチャは,教師付き学習から専用トランスフォーマーモデルを超えることができる。
本手法は, 被写体分類において, 最先端のアキュラティティを1.5%-2.3%向上させる。
さらに、我々の研究は、言語や画像からポイントクラウドへの統一アーキテクチャの適用可能性に刺激を与えます。
関連論文リスト
- Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - SeRP: Self-Supervised Representation Learning Using Perturbed Point
Clouds [6.29475963948119]
SeRPはエンコーダ・デコーダアーキテクチャで構成されており、乱れや破損した点雲を入力として利用する。
トランスフォーマーとPointNetベースのオートエンコーダを使用しました。
論文 参考訳(メタデータ) (2022-09-13T15:22:36Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Masked Autoencoders in 3D Point Cloud Representation Learning [7.617783375837524]
3Dポイントクラウド表現学習におけるマスク付きオートエンコーダを提案する(略してMAE3D)。
最初はインプットポイントクラウドをパッチに分割し、その一部をマスクし、次にPatch Embedding Moduleを使って未成熟のパッチの特徴を抽出しました。
総合的な実験により、ポイントクラウドパッチからMAE3Dによって抽出された局所的特徴が下流分類タスクに有用であることが示されている。
論文 参考訳(メタデータ) (2022-07-04T16:13:27Z) - Masked Autoencoders for Self-Supervised Learning on Automotive Point
Clouds [2.8544513613730205]
Maskedオートエンコーディングは、テキスト、画像、そして最近ではポイントクラウドのためのTransformerモデルの事前トレーニングパラダイムとして成功している。
本稿では,ボクセル表現のためのマスク付き自動符号化事前学習方式であるVoxelMAEを提案する。
提案手法は,難解なnuScenesデータセット上で1.75mAPポイントと1.05NDSで3D OD性能を向上する。
論文 参考訳(メタデータ) (2022-07-01T16:31:45Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Masked Discrimination for Self-Supervised Learning on Point Clouds [27.652157544218234]
マスク付きオートエンコーディングは、画像と言語領域における自己教師型学習において大きな成功を収めた。
PointNetのような標準的なバックボーンは、トレーニング中にマスクによって導入された分散ミスマッチのトレーニングとテストのミスマッチを適切に処理できない。
我々はこのギャップを、ポイントクラウドのための差別マスク事前学習フレームワークMaskPointを提案し、橋渡しする。
論文 参考訳(メタデータ) (2022-03-21T17:57:34Z) - Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point
Modeling [104.82953953453503]
BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。
提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
論文 参考訳(メタデータ) (2021-11-29T18:59:03Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。