論文の概要: LCM: Locally Constrained Compact Point Cloud Model for Masked Point Modeling
- arxiv url: http://arxiv.org/abs/2405.17149v1
- Date: Mon, 27 May 2024 13:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 15:22:54.633609
- Title: LCM: Locally Constrained Compact Point Cloud Model for Masked Point Modeling
- Title(参考訳): LCM:Masked Point Modelingのための局所的に制約されたコンパクトポイントクラウドモデル
- Authors: Yaohua Zha, Naiqi Li, Yanzi Wang, Tao Dai, Hang Guo, Bin Chen, Zhi Wang, Zhihao Ouyang, Shu-Tao Xia,
- Abstract要約: 本研究では,局所的制約付きコンパクトエンコーダと局所的制約付きマンバ型デコーダからなる局所的制約付きコンパクトポイントクラウドモデル(LCM)を提案する。
以上の結果から,我々のコンパクトモデルは既存のTransformerモデルよりも性能と効率の両面で大幅に上回っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 47.94285833315427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pre-trained point cloud model based on Masked Point Modeling (MPM) has exhibited substantial improvements across various tasks. However, these models heavily rely on the Transformer, leading to quadratic complexity and limited decoder, hindering their practice application. To address this limitation, we first conduct a comprehensive analysis of existing Transformer-based MPM, emphasizing the idea that redundancy reduction is crucial for point cloud analysis. To this end, we propose a Locally constrained Compact point cloud Model (LCM) consisting of a locally constrained compact encoder and a locally constrained Mamba-based decoder. Our encoder replaces self-attention with our local aggregation layers to achieve an elegant balance between performance and efficiency. Considering the varying information density between masked and unmasked patches in the decoder inputs of MPM, we introduce a locally constrained Mamba-based decoder. This decoder ensures linear complexity while maximizing the perception of point cloud geometry information from unmasked patches with higher information density. Extensive experimental results show that our compact model significantly surpasses existing Transformer-based models in both performance and efficiency, especially our LCM-based Point-MAE model, compared to the Transformer-based model, achieved an improvement of 2.24%, 0.87%, and 0.94% in performance on the three variants of ScanObjectNN while reducing parameters by 88% and computation by 73%.
- Abstract(参考訳): Masked Point Modeling (MPM)に基づく事前訓練されたポイントクラウドモデルは、様々なタスクで大幅に改善されている。
しかし、これらのモデルはTransformerに大きく依存しており、二次的な複雑さと限定的なデコーダをもたらし、その実践を妨げている。
この制限に対処するために、我々はまず既存のTransformerベースのMPMを包括的に分析し、点雲解析に冗長性低減が不可欠であるという考えを強調した。
そこで我々は,局所的に制約されたコンパクトエンコーダと局所的に制約されたMambaベースのデコーダからなる,局所的に制約されたコンパクトポイントクラウドモデル(LCM)を提案する。
エンコーダは、パフォーマンスと効率のエレガントなバランスを達成するために、自己アテンションをローカルアグリゲーション層に置き換えます。
MPMのデコーダ入力におけるマスクされたパッチとアンマスクされたパッチ間の情報密度の変化を考慮すると、局所的に制約されたMambaベースのデコーダを導入する。
このデコーダは、高情報密度の未処理パッチからの点雲幾何学情報の知覚を最大化しつつ、線形複雑性を保証する。
大規模な実験結果から,我々のコンパクトモデルは既存のトランスフォーマーモデルよりも性能と効率の両面で大幅に優れており,特にLCMベースのポイント-MAEモデルでは2.24%,0.87%,0.94%の性能向上を達成し,パラメータを88%,計算を73%削減した。
関連論文リスト
- Pre-training Point Cloud Compact Model with Partial-aware Reconstruction [51.403810709250024]
本稿では, 部分認識型textbfReconstruction を用いた, Point-CPR という事前学習型クラウド圧縮モデルを提案する。
我々のモデルは様々なタスクにおいて強い性能を示し、特にパラメータの2%しか持たない主要なMPMベースモデルであるPointGPT-Bを上回っている。
論文 参考訳(メタデータ) (2024-07-12T15:18:14Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Mamba3D: Enhancing Local Features for 3D Point Cloud Analysis via State Space Model [18.30032389736101]
状態空間モデル(SSM)に基づくMambaモデルは、線形複雑性のみを持つ複数の領域でTransformerより優れている。
我々は,局所的特徴抽出を強化するために,ポイントクラウド学習に適した状態空間モデルであるMamba3Dを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:20:27Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - Point Cloud Mamba: Point Cloud Learning via State Space Model [64.85865751243448]
この研究は、ポイントクラウド分析にそのようなアーキテクチャを適用することに焦点を当てている。
我々は,マンバをベースとした点雲法が,変圧器や多層パーセプトロン(MLP)に基づく従来手法よりも優れていることを示す。
Point Cloud Mambaは、最先端(SOTA)のポイントベースメソッドであるPointNeXtを超え、ScanObjectNN、ModelNet40、ShapeNetPart、S3DISデータセット上で新しいSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-01T18:59:03Z) - CD-CTFM: A Lightweight CNN-Transformer Network for Remote Sensing Cloud
Detection Fusing Multiscale Features [5.600932842087808]
この問題を解決するために,CD-CTFMという軽量CNN-Transformerネットワークを提案する。
CD-CTFMはエンコーダ・デコーダアーキテクチャに基づいており、アテンション機構を組み込んでいる。
提案モデルは,38-CloudとMODISの2つのクラウドデータセットで評価される。
論文 参考訳(メタデータ) (2023-06-12T15:37:18Z) - PointPatchMix: Point Cloud Mixing with Patch Scoring [58.58535918705736]
我々は、パッチレベルでポイントクラウドを混合し、混合ポイントクラウドのコンテンツベースターゲットを生成するPointPatchMixを提案する。
パッチスコアリングモジュールは、事前学習した教師モデルから、コンテンツに基づく重要度スコアに基づいて目標を割り当てる。
Point-MAE をベースラインとして,ScanObjectNN では86.3%,ModelNet40 では94.1% の精度で,従来の手法をかなり上回りました。
論文 参考訳(メタデータ) (2023-03-12T14:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。