論文の概要: PCP-MAE: Learning to Predict Centers for Point Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2408.08753v2
- Date: Thu, 24 Oct 2024 14:55:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 07:18:07.186901
- Title: PCP-MAE: Learning to Predict Centers for Point Masked Autoencoders
- Title(参考訳): PCP-MAE:ポイントメイクオートエンコーダのセンター予測学習
- Authors: Xiangdong Zhang, Shaofeng Zhang, Junchi Yan,
- Abstract要約: マスクされたパッチの中央をエンコーダからの情報を使わずにデコーダに直接送る場合、依然としてよく再構築されていることを示す。
ポイントマスキングオートエンコーダ(PCP-MAE)の予測センターへの学習という,シンプルで効果的な手法を提案する。
本手法は他の方法と比較して事前学習効率が高く,Point-MAEよりも大幅に向上する。
- 参考スコア(独自算出の注目度): 57.31790812209751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked autoencoder has been widely explored in point cloud self-supervised learning, whereby the point cloud is generally divided into visible and masked parts. These methods typically include an encoder accepting visible patches (normalized) and corresponding patch centers (position) as input, with the decoder accepting the output of the encoder and the centers (position) of the masked parts to reconstruct each point in the masked patches. Then, the pre-trained encoders are used for downstream tasks. In this paper, we show a motivating empirical result that when directly feeding the centers of masked patches to the decoder without information from the encoder, it still reconstructs well. In other words, the centers of patches are important and the reconstruction objective does not necessarily rely on representations of the encoder, thus preventing the encoder from learning semantic representations. Based on this key observation, we propose a simple yet effective method, i.e., learning to Predict Centers for Point Masked AutoEncoders (PCP-MAE) which guides the model to learn to predict the significant centers and use the predicted centers to replace the directly provided centers. Specifically, we propose a Predicting Center Module (PCM) that shares parameters with the original encoder with extra cross-attention to predict centers. Our method is of high pre-training efficiency compared to other alternatives and achieves great improvement over Point-MAE, particularly surpassing it by 5.50% on OBJ-BG, 6.03% on OBJ-ONLY, and 5.17% on PB-T50-RS for 3D object classification on the ScanObjectNN dataset. The code is available at https://github.com/aHapBean/PCP-MAE.
- Abstract(参考訳): マスクオートエンコーダは、ポイントクラウドの自己教師型学習において広く研究されており、ポイントクラウドは一般的に可視部とマスク部に分けられている。
これらの方法は通常、可視パッチ(正規化)と対応するパッチセンター(配置)を入力として受け入れるエンコーダを含み、デコーダはエンコーダの出力とマスクされた部分の中心(配置)を受け入れて、マスクされたパッチの各点を再構築する。
次に、トレーニング済みのエンコーダが下流タスクに使用される。
本稿では,マスクされたパッチの中央をエンコーダからの情報無しでデコーダに直接送る場合,それでもよく再構成できるという,モチベーションのある実証結果を示す。
言い換えれば、パッチの中心は重要であり、再構築の対象はエンコーダの表現に必ずしも依存していないため、エンコーダが意味表現を学習するのを防ぐことができる。
このキーとなる観察に基づいて、本研究では、重要なセンターを予測し、予測されたセンターを用いて直接提供されたセンターを置き換えることを学ぶための、単純な、効果的な方法、すなわち、ポイントマスクオートエンコーダの予測センター(PCP-MAE)の学習を提案する。
具体的には,予測センターモジュール (PCM) を提案する。
特にOBJ-BGでは5.50%,OBJ-ONLYでは6.03%,ScanObjectNNデータセットでは5.17%,PB-T50-RSでは3Dオブジェクト分類では5.17%,ポイント-MAEでは大きな改善を実現している。
コードはhttps://github.com/aHapBean/PCP-MAEで入手できる。
関連論文リスト
- Pre-training Point Cloud Compact Model with Partial-aware Reconstruction [51.403810709250024]
本稿では, 部分認識型textbfReconstruction を用いた, Point-CPR という事前学習型クラウド圧縮モデルを提案する。
我々のモデルは様々なタスクにおいて強い性能を示し、特にパラメータの2%しか持たない主要なMPMベースモデルであるPointGPT-Bを上回っている。
論文 参考訳(メタデータ) (2024-07-12T15:18:14Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - SeRP: Self-Supervised Representation Learning Using Perturbed Point
Clouds [6.29475963948119]
SeRPはエンコーダ・デコーダアーキテクチャで構成されており、乱れや破損した点雲を入力として利用する。
トランスフォーマーとPointNetベースのオートエンコーダを使用しました。
論文 参考訳(メタデータ) (2022-09-13T15:22:36Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - Bootstrapped Masked Autoencoders for Vision BERT Pretraining [142.5285802605117]
BootMAEは、オリジナルのマスク付きオートエンコーダ(MAE)を2つのコア設計で改善した。
1) BERT予測対象としてオンライン機能を提供するモーメントエンコーダ,2) BERT事前学習における目標固有情報を記憶するためのエンコーダの圧力を減らそうとする目標認識デコーダ。
論文 参考訳(メタデータ) (2022-07-14T17:59:58Z) - Masked Autoencoders for Self-Supervised Learning on Automotive Point
Clouds [2.8544513613730205]
Maskedオートエンコーディングは、テキスト、画像、そして最近ではポイントクラウドのためのTransformerモデルの事前トレーニングパラダイムとして成功している。
本稿では,ボクセル表現のためのマスク付き自動符号化事前学習方式であるVoxelMAEを提案する。
提案手法は,難解なnuScenesデータセット上で1.75mAPポイントと1.05NDSで3D OD性能を向上する。
論文 参考訳(メタデータ) (2022-07-01T16:31:45Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。