論文の概要: Mamba3D: Enhancing Local Features for 3D Point Cloud Analysis via State Space Model
- arxiv url: http://arxiv.org/abs/2404.14966v1
- Date: Tue, 23 Apr 2024 12:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:11:34.422888
- Title: Mamba3D: Enhancing Local Features for 3D Point Cloud Analysis via State Space Model
- Title(参考訳): Mamba3D: 状態空間モデルによる3Dポイントクラウド分析のためのローカル機能強化
- Authors: Xu Han, Yuan Tang, Zhaoxuan Wang, Xianzhi Li,
- Abstract要約: 状態空間モデル(SSM)に基づくMambaモデルは、線形複雑性のみを持つ複数の領域でTransformerより優れている。
我々は,局所的特徴抽出を強化するために,ポイントクラウド学習に適した状態空間モデルであるMamba3Dを提案する。
- 参考スコア(独自算出の注目度): 18.30032389736101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Transformer-based models for point cloud analysis suffer from quadratic complexity, leading to compromised point cloud resolution and information loss. In contrast, the newly proposed Mamba model, based on state space models (SSM), outperforms Transformer in multiple areas with only linear complexity. However, the straightforward adoption of Mamba does not achieve satisfactory performance on point cloud tasks. In this work, we present Mamba3D, a state space model tailored for point cloud learning to enhance local feature extraction, achieving superior performance, high efficiency, and scalability potential. Specifically, we propose a simple yet effective Local Norm Pooling (LNP) block to extract local geometric features. Additionally, to obtain better global features, we introduce a bidirectional SSM (bi-SSM) with both a token forward SSM and a novel backward SSM that operates on the feature channel. Extensive experimental results show that Mamba3D surpasses Transformer-based counterparts and concurrent works in multiple tasks, with or without pre-training. Notably, Mamba3D achieves multiple SoTA, including an overall accuracy of 92.6% (train from scratch) on the ScanObjectNN and 95.1% (with single-modal pre-training) on the ModelNet40 classification task, with only linear complexity.
- Abstract(参考訳): 既存のTransformerベースのポイントクラウド分析モデルは2次複雑さに悩まされ、ポイントクラウドの解像度と情報損失が損なわれる。
対照的に、状態空間モデル(SSM)に基づく新しいMambaモデルでは、線形複雑性のみを持つ複数の領域でTransformerの性能が向上する。
しかし、Mambaの直接的な採用は、ポイントクラウドタスクでの十分なパフォーマンスを達成できない。
本研究では,ポイントクラウド学習に適した状態空間モデルであるMamba3Dを提案する。
具体的には,局所的幾何学的特徴を抽出するシンプルな局所ノルムプール(LNP)ブロックを提案する。
さらに、より優れたグローバルな特徴を得るために、トークンフォワードSSMと特徴チャネルで動作する新しい後方SSMの両方を備えた双方向SSM(bi-SSM)を導入する。
大規模な実験結果から、Mamba3DはTransformerベースのものを超え、事前トレーニングの有無に関わらず、複数のタスクで同時に動作することがわかった。
特に、Mamba3DはScanObjectNNで92.6%(スクラッチからトレーニング)、ModelNet40分類タスクで95.1%(シングルモーダル事前トレーニング)の総合的な精度で複数のSoTAを達成している。
関連論文リスト
- Point Mamba: A Novel Point Cloud Backbone Based on State Space Model with Octree-Based Ordering Strategy [15.032048930130614]
我々は、因果性を考慮した注文機構を備えた、新しいSSMベースのポイントクラウド処理バックボーン、Point Mambaを提案する。
本手法は, 変圧器をベースとした変圧器と比較して, 93.4%の精度と75.7mIOUの精度を実現している。
提案手法は,SSMが点雲理解において一般的なバックボーンとして機能する可能性を示す。
論文 参考訳(メタデータ) (2024-03-11T07:07:39Z) - Point Cloud Mamba: Point Cloud Learning via State Space Model [64.85865751243448]
我々は,マンバをベースとしたポイントクラウド手法が,ポイントベースの手法より優れていることを示す。
ローカル・グローバル・モデリングを組み合わせたポイント・クラウド・マンバ(Point Cloud Mamba)というポイント・クラウド・ネットワークを構築した。
Point Cloud Mambaは、SOTAポイントベースのPointNeXtを超え、ScanObjectNN、ModelNet40、ShapeNetPartデータセットで新しいSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-01T18:59:03Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [59.38202882781188]
本稿では,大域的モデリングと線形複雑度を考慮したフレームワークであるPointMambaを提案する。
組込み点パッチを入力として,SSMのグローバルモデリング能力を高めるための並べ替え戦略を提案する。
実験の結果,提案したPointMambaは,異なるポイントクラウド分析データセット上で,トランスフォーマーをベースとした性能よりも優れていた。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - StarNet: Style-Aware 3D Point Cloud Generation [82.30389817015877]
StarNetは、マッピングネットワークを使用して高忠実度および3Dポイントクラウドを再構築し、生成することができる。
我々のフレームワークは、クラウドの再構築と生成タスクにおいて、様々なメトリクスで同等の最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2023-03-28T08:21:44Z) - PointPatchMix: Point Cloud Mixing with Patch Scoring [58.58535918705736]
我々は、パッチレベルでポイントクラウドを混合し、混合ポイントクラウドのコンテンツベースターゲットを生成するPointPatchMixを提案する。
パッチスコアリングモジュールは、事前学習した教師モデルから、コンテンツに基づく重要度スコアに基づいて目標を割り当てる。
Point-MAE をベースラインとして,ScanObjectNN では86.3%,ModelNet40 では94.1% の精度で,従来の手法をかなり上回りました。
論文 参考訳(メタデータ) (2023-03-12T14:49:42Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - No Pain, Big Gain: Classify Dynamic Point Cloud Sequences with Static
Models by Fitting Feature-level Space-time Surfaces [46.8891422128]
本研究では,キネマティックスにインスパイアされたニューラルネットワーク(Kinet)を提案する。
Kinetは、機能レベルのダイナミクスを暗黙的にエンコードし、静的ポイントクラウド処理に成熟したバックボーンを使用することで利点を得る。
キネは320万のパラメータと10.35G FLOPSしか持たないMSRAction-3Dで93.27%の精度を達成した。
論文 参考訳(メタデータ) (2022-03-21T16:41:35Z) - Learning Semantic Segmentation of Large-Scale Point Clouds with Random
Sampling [52.464516118826765]
我々はRandLA-Netを紹介した。RandLA-Netは、大規模ポイントクラウドのポイントごとの意味を推論する、効率的で軽量なニューラルネットワークアーキテクチャである。
我々のアプローチの鍵は、より複雑な点選択アプローチではなく、ランダムな点サンプリングを使用することである。
我々のRandLA-Netは、既存のアプローチよりも最大200倍高速な1回のパスで100万ポイントを処理できます。
論文 参考訳(メタデータ) (2021-07-06T05:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。