論文の概要: M$^3$CS: Multi-Target Masked Point Modeling with Learnable Codebook and
Siamese Decoders
- arxiv url: http://arxiv.org/abs/2309.13235v1
- Date: Sat, 23 Sep 2023 02:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:11:47.813766
- Title: M$^3$CS: Multi-Target Masked Point Modeling with Learnable Codebook and
Siamese Decoders
- Title(参考訳): M$^3$CS:学習可能なコードブックとシームズデコーダを用いたマルチターゲットマスキングポイントモデリング
- Authors: Qibo Qiu, Honghui Yang, Wenxiao Wang, Shun Zhang, Haiming Gao, Haochao
Ying, Wei Hua, Xiaofei He
- Abstract要約: マスク付き点モデリングは、点雲の自己教師型事前学習の有望なスキームとなっている。
M$3$CSは上記の能力を持つモデルを可能にするために提案されている。
- 参考スコア(独自算出の注目度): 19.68592678093725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked point modeling has become a promising scheme of self-supervised
pre-training for point clouds. Existing methods reconstruct either the original
points or related features as the objective of pre-training. However,
considering the diversity of downstream tasks, it is necessary for the model to
have both low- and high-level representation modeling capabilities to capture
geometric details and semantic contexts during pre-training. To this end,
M$^3$CS is proposed to enable the model with the above abilities. Specifically,
with masked point cloud as input, M$^3$CS introduces two decoders to predict
masked representations and the original points simultaneously. While an extra
decoder doubles parameters for the decoding process and may lead to
overfitting, we propose siamese decoders to keep the amount of learnable
parameters unchanged. Further, we propose an online codebook projecting
continuous tokens into discrete ones before reconstructing masked points. In
such way, we can enforce the decoder to take effect through the combinations of
tokens rather than remembering each token. Comprehensive experiments show that
M$^3$CS achieves superior performance at both classification and segmentation
tasks, outperforming existing methods.
- Abstract(参考訳): マスク付き点モデリングは、点雲の自己教師型事前学習の有望なスキームとなっている。
既存の方法は、事前学習の目的として原点または関連特徴を再構築する。
しかし、下流タスクの多様性を考慮すると、事前学習中に幾何学的詳細や意味的文脈を捉えるために、低レベルかつ高レベルな表現モデリング機能を持つ必要がある。
この目的のために、M$^3$CS は上記の能力を持つモデルを可能にするために提案される。
具体的には、マスキングポイントクラウドを入力として、m$^3$csは2つのデコーダを導入し、マスクされた表現と元の点を同時に予測する。
余分なデコーダはデコードプロセスのパラメータを2倍にし、オーバーフィッティングにつながる可能性があるが、学習可能なパラメータの量を一定に抑えるためにシムデコーダを提案する。
さらに,マスキングポイントを再構築する前に,連続トークンを個別に投影するオンラインコードブックを提案する。
このようにして、デコーダは各トークンを記憶するのではなく、トークンの組み合わせを通じて効果を発揮することができる。
総合的な実験により、M$^3$CSは分類タスクとセグメンテーションタスクの両方において優れた性能を示し、既存の手法よりも優れていた。
関連論文リスト
- Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Pre-training Point Cloud Compact Model with Partial-aware Reconstruction [51.403810709250024]
本稿では, 部分認識型textbfReconstruction を用いた, Point-CPR という事前学習型クラウド圧縮モデルを提案する。
我々のモデルは様々なタスクにおいて強い性能を示し、特にパラメータの2%しか持たない主要なMPMベースモデルであるPointGPT-Bを上回っている。
論文 参考訳(メタデータ) (2024-07-12T15:18:14Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder [60.52613206271329]
本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
論文 参考訳(メタデータ) (2022-12-08T06:27:11Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。