論文の概要: Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2310.03670v1
- Date: Mon, 25 Sep 2023 17:23:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-08 11:01:03.746558
- Title: Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning
- Title(参考訳): 構築前の回帰:ポイントクラウドによる自己教師型学習のための回帰オートエンコーダ
- Authors: Yang Liu, Chen Chen, Can Wang, Xulin King, Mengyuan Liu
- Abstract要約: Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
- 参考スコア(独自算出の注目度): 18.10704604275133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Autoencoders (MAE) have demonstrated promising performance in
self-supervised learning for both 2D and 3D computer vision. Nevertheless,
existing MAE-based methods still have certain drawbacks. Firstly, the
functional decoupling between the encoder and decoder is incomplete, which
limits the encoder's representation learning ability. Secondly, downstream
tasks solely utilize the encoder, failing to fully leverage the knowledge
acquired through the encoder-decoder architecture in the pre-text task. In this
paper, we propose Point Regress AutoEncoder (Point-RAE), a new scheme for
regressive autoencoders for point cloud self-supervised learning. The proposed
method decouples functions between the decoder and the encoder by introducing a
mask regressor, which predicts the masked patch representation from the visible
patch representation encoded by the encoder and the decoder reconstructs the
target from the predicted masked patch representation. By doing so, we minimize
the impact of decoder updates on the representation space of the encoder.
Moreover, we introduce an alignment constraint to ensure that the
representations for masked patches, predicted from the encoded representations
of visible patches, are aligned with the masked patch presentations computed
from the encoder. To make full use of the knowledge learned in the pre-training
stage, we design a new finetune mode for the proposed Point-RAE. Extensive
experiments demonstrate that our approach is efficient during pre-training and
generalizes well on various downstream tasks. Specifically, our pre-trained
models achieve a high accuracy of \textbf{90.28\%} on the ScanObjectNN hardest
split and \textbf{94.1\%} accuracy on ModelNet40, surpassing all the other
self-supervised learning methods. Our code and pretrained model are public
available at: \url{https://github.com/liuyyy111/Point-RAE}.
- Abstract(参考訳): マスク付きオートエンコーダ(mae)は、2dおよび3dコンピュータビジョンの自己教師あり学習において有望な性能を示している。
それにもかかわらず、既存のmaeベースの手法には一定の欠点がある。
まず、エンコーダとデコーダの間の関数的デカップリングは不完全であり、エンコーダの表現学習能力を制限する。
次に、ダウンストリームタスクはエンコーダのみを使用し、プリテキストタスクでエンコーダ-デコーダアーキテクチャによって得られる知識を十分に活用できない。
本稿では,ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しい手法であるPoint Regress AutoEncoder (Point-RAE)を提案する。
提案手法は,エンコーダが符号化した可視パッチ表現からマスクパッチ表現を予測し,デコーダが予測したマスクパッチ表現からターゲットを再構成するマスクレグレッサーを導入することで,デコーダとエンコーダとの間の機能を分離する。
これにより、エンコーダの表現空間に対するデコーダ更新の影響を最小限に抑えることができる。
さらに,可視パッチの符号化表現から予測されるマスクパッチの表現が,エンコーダから計算されたマスクパッチの表現と一致していることを保証するためにアライメント制約を導入する。
事前学習段階で学習した知識をフル活用するために,提案したポイント-RAEのためのファインチューンモードを設計する。
広範な実験により,我々のアプローチは事前学習時に効率的であり,様々な下流タスクをうまく一般化できることが証明された。
具体的には、事前学習されたモデルは、scanobjectnn hardest split における \textbf{90.28\%} と modelnet40 における \textbf{94.1\%} の精度を高い精度で達成し、他の全ての自己教師付き学習方法を超える。
私たちのコードと事前訓練されたモデルは、以下の通り公開されている。
関連論文リスト
- PCP-MAE: Learning to Predict Centers for Point Masked Autoencoders [57.31790812209751]
マスクされたパッチの中央をエンコーダからの情報を使わずにデコーダに直接送る場合、依然としてよく再構築されていることを示す。
ポイントマスキングオートエンコーダ(PCP-MAE)の予測センターへの学習という,シンプルで効果的な手法を提案する。
本手法は他の方法と比較して事前学習効率が高く,Point-MAEよりも大幅に向上する。
論文 参考訳(メタデータ) (2024-08-16T13:53:53Z) - SeRP: Self-Supervised Representation Learning Using Perturbed Point
Clouds [6.29475963948119]
SeRPはエンコーダ・デコーダアーキテクチャで構成されており、乱れや破損した点雲を入力として利用する。
トランスフォーマーとPointNetベースのオートエンコーダを使用しました。
論文 参考訳(メタデータ) (2022-09-13T15:22:36Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Improvements to Self-Supervised Representation Learning for Masked Image
Modeling [0.0]
本稿では,マスク画像モデリング(MIM)パラダイムの改良について検討する。
MIMパラダイムにより、入力画像のマスキングとマスク部分のアンマスク部分の予測により、モデルが画像の主オブジェクトの特徴を学習することができる。
我々は新しいモデルであるContrastive Masked AutoEncoders (CMAE)を提案する。
論文 参考訳(メタデータ) (2022-05-21T09:45:50Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z) - Context Autoencoder for Self-Supervised Representation Learning [64.63908944426224]
符号化された表現空間で予測を行うことにより、符号化器を事前訓練する。
ネットワークはエンコーダ/レグレッサ/デコーダアーキテクチャである。
下流タスクにおける転送性能の向上によるCAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-07T09:33:45Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。