論文の概要: Pre-training Point Cloud Compact Model with Partial-aware Reconstruction
- arxiv url: http://arxiv.org/abs/2407.09344v1
- Date: Fri, 12 Jul 2024 15:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-15 23:08:25.383086
- Title: Pre-training Point Cloud Compact Model with Partial-aware Reconstruction
- Title(参考訳): 部分認識再構成を用いた事前学習点雲圧縮モデル
- Authors: Yaohua Zha, Yanzi Wang, Tao Dai, Shu-Tao Xia,
- Abstract要約: 本稿では, 部分認識型textbfReconstruction を用いた, Point-CPR という事前学習型クラウド圧縮モデルを提案する。
我々のモデルは様々なタスクにおいて強い性能を示し、特にパラメータの2%しか持たない主要なMPMベースモデルであるPointGPT-Bを上回っている。
- 参考スコア(独自算出の注目度): 51.403810709250024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pre-trained point cloud model based on Masked Point Modeling (MPM) has exhibited substantial improvements across various tasks. However, two drawbacks hinder their practical application. Firstly, the positional embedding of masked patches in the decoder results in the leakage of their central coordinates, leading to limited 3D representations. Secondly, the excessive model size of existing MPM methods results in higher demands for devices. To address these, we propose to pre-train Point cloud Compact Model with Partial-aware \textbf{R}econstruction, named Point-CPR. Specifically, in the decoder, we couple the vanilla masked tokens with their positional embeddings as randomly masked queries and introduce a partial-aware prediction module before each decoder layer to predict them from the unmasked partial. It prevents the decoder from creating a shortcut between the central coordinates of masked patches and their reconstructed coordinates, enhancing the robustness of models. We also devise a compact encoder composed of local aggregation and MLPs, reducing the parameters and computational requirements compared to existing Transformer-based encoders. Extensive experiments demonstrate that our model exhibits strong performance across various tasks, especially surpassing the leading MPM-based model PointGPT-B with only 2% of its parameters.
- Abstract(参考訳): Masked Point Modeling (MPM)に基づく事前訓練されたポイントクラウドモデルは、様々なタスクで大幅に改善されている。
しかし、2つの欠点は実用化を妨げた。
第一に、マスクされたパッチをデコーダに埋め込むと、中央座標が漏洩し、3D表現が制限される。
第二に、既存のMPM手法の過剰なモデルサイズは、デバイスに対する高い要求をもたらす。
これらの問題に対処するために,Parial-aware \textbf{R}econstruction を用いた Point-CPR の事前学習モデルを提案する。
具体的には、デコーダにおいて、バニラマスク付きトークンをランダムなマスク付きクエリとして配置し、デコーダの各レイヤの前に部分認識予測モジュールを導入し、それらを非マスク部分から予測する。
これは、デコーダがマスクされたパッチの中央座標と再構成された座標の間のショートカットを作成するのを防ぎ、モデルの堅牢性を高める。
また,ローカルアグリゲーションとMPPからなるコンパクトエンコーダを考案し,既存のTransformerベースのエンコーダと比較してパラメータと計算要求を削減した。
大規模な実験により,本モデルは様々なタスクにおいて高い性能を示し,特にパラメータの2%しか持たない主要なMPMモデルであるPointGPT-Bを上回る性能を示した。
関連論文リスト
- Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - LCM: Locally Constrained Compact Point Cloud Model for Masked Point Modeling [47.94285833315427]
本稿では,局所的に制約されたコンパクト・エンコーダと局所的に制約されたMambaベースのデコーダからなる,局所的に制約されたコンパクト・ポイント・クラウド・モデルを提案する。
エンコーダは、パフォーマンスと効率のエレガントなバランスを達成するために、自己アテンションをローカルアグリゲーション層に置き換えます。
このデコーダは、高情報密度の未処理パッチからの点雲幾何学情報の知覚を最大化しつつ、線形複雑性を保証する。
論文 参考訳(メタデータ) (2024-05-27T13:19:23Z) - M$^3$CS: Multi-Target Masked Point Modeling with Learnable Codebook and
Siamese Decoders [19.68592678093725]
マスク付き点モデリングは、点雲の自己教師型事前学習の有望なスキームとなっている。
M$3$CSは上記の能力を持つモデルを可能にするために提案されている。
論文 参考訳(メタデータ) (2023-09-23T02:19:21Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point
Modeling [104.82953953453503]
BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。
提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
論文 参考訳(メタデータ) (2021-11-29T18:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。