論文の概要: Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training
- arxiv url: http://arxiv.org/abs/2205.14401v1
- Date: Sat, 28 May 2022 11:22:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 14:23:43.766885
- Title: Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training
- Title(参考訳): Point-M2AE:階層型ポイントクラウド事前学習のためのマルチスケールマスクオートエンコーダ
- Authors: Renrui Zhang, Ziyu Guo, Peng Gao, Rongyao Fang, Bin Zhao, Dong Wang,
Yu Qiao, Hongsheng Li
- Abstract要約: Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
- 参考スコア(独自算出の注目度): 56.81809311892475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Autoencoders (MAE) have shown great potentials in self-supervised
pre-training for language and 2D image transformers. However, it still remains
an open question on how to exploit masked autoencoding for learning 3D
representations of irregular point clouds. In this paper, we propose
Point-M2AE, a strong Multi-scale MAE pre-training framework for hierarchical
self-supervised learning of 3D point clouds. Unlike the standard transformer in
MAE, we modify the encoder and decoder into pyramid architectures to
progressively model spatial geometries and capture both fine-grained and
high-level semantics of 3D shapes. For the encoder that downsamples point
tokens by stages, we design a multi-scale masking strategy to generate
consistent visible regions across scales, and adopt a local spatial
self-attention mechanism to focus on neighboring patterns. By multi-scale token
propagation, the lightweight decoder gradually upsamples point tokens with
complementary skip connections from the encoder, which further promotes the
reconstruction from a global-to-local perspective. Extensive experiments
demonstrate the state-of-the-art performance of Point-M2AE for 3D
representation learning. With a frozen encoder after pre-training, Point-M2AE
achieves 92.9% accuracy for linear SVM on ModelNet40, even surpassing some
fully trained methods. By fine-tuning on downstream tasks, Point-M2AE achieves
86.43% accuracy on ScanObjectNN, +3.36% to the second-best, and largely
benefits the few-shot classification, part segmentation and 3D object detection
with the hierarchical pre-training scheme. Code will be available at
https://github.com/ZrrSkywalker/Point-M2AE.
- Abstract(参考訳): Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
しかし、不規則な点雲の3d表現を学習するためにマスク付き自動エンコーディングをどのように利用するかという疑問はまだ残っていない。
本稿では,3次元点雲の階層的自己教師型学習のためのマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
MAEの標準変換器とは異なり、エンコーダとデコーダをピラミッドアーキテクチャに修正し、空間的ジオメトリを段階的にモデル化し、3次元形状の細粒度と高レベルのセマンティクスをキャプチャする。
ポイントトークンを段階的にダウンサンプリングするエンコーダでは、スケールをまたいだ一貫した可視領域を生成するためのマルチスケールマスキング戦略を設計し、近隣パターンに焦点を合わせるために局所的な空間自己保持機構を採用する。
マルチスケールのトークン伝搬により、軽量デコーダは、エンコーダからのスキップ接続を補完するポイントトークンを徐々にサンプリングし、グローバルからローカルへの視点で再構築を促進する。
3次元表現学習におけるPoint-M2AEの最先端性能を示す実験を行った。
事前トレーニング後の凍結エンコーダにより、Point-M2AEはModelNet40上の線形SVMの92.9%の精度を達成した。
下流のタスクを微調整することで、Point-M2AEはScanObjectNNの86.43%の精度を達成し、+3.36%は第2のベットに到達した。
コードはhttps://github.com/ZrrSkywalker/Point-M2AEで入手できる。
関連論文リスト
- Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked
Autoencoder [21.73287941143304]
Multi-Modality Masked AutoEncoders (MAE) 法は2次元画像と3次元点雲の両方を事前学習に利用している。
本稿では、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。
提案手法は,様々な下流タスクにおいて,最先端のタスクよりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Masked Autoencoders in 3D Point Cloud Representation Learning [7.617783375837524]
3Dポイントクラウド表現学習におけるマスク付きオートエンコーダを提案する(略してMAE3D)。
最初はインプットポイントクラウドをパッチに分割し、その一部をマスクし、次にPatch Embedding Moduleを使って未成熟のパッチの特徴を抽出しました。
総合的な実験により、ポイントクラウドパッチからMAE3Dによって抽出された局所的特徴が下流分類タスクに有用であることが示されている。
論文 参考訳(メタデータ) (2022-07-04T16:13:27Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。