論文の概要: UniMamba: Unified Spatial-Channel Representation Learning with Group-Efficient Mamba for LiDAR-based 3D Object Detection
- arxiv url: http://arxiv.org/abs/2503.12009v1
- Date: Sat, 15 Mar 2025 06:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:38.598668
- Title: UniMamba: Unified Spatial-Channel Representation Learning with Group-Efficient Mamba for LiDAR-based 3D Object Detection
- Title(参考訳): UniMamba:LiDARに基づく3次元物体検出のためのグループ効率なMambaを用いた一元空間チャネル表現学習
- Authors: Xin Jin, Haisheng Su, Kai Liu, Cong Ma, Wei Wu, Fei Hui, Junchi Yan,
- Abstract要約: LiDAR 3D検出の最近の進歩は、ポイントクラウド空間からグローバルな依存関係をキャプチャするTransformerベースのフレームワークの有効性を示している。
トランスフォーマーのかなりの数の3Dボクセルと二次的な複雑さのため、トランスフォーマーに供給する前に複数のシーケンスがグループ化され、受容野が制限される。
2次元視覚タスクの分野で達成された状態空間モデル(SSM)の印象的な性能に触発されて、我々は新しい統一マンバ(UniMamba)を提案する。
特に、UniMambaブロックは、主にローカリティモデリング、Zオーダーシリアライゼーション、局所グローバルシーケンシャルアグリゲータで構成されている。
- 参考スコア(独自算出の注目度): 64.65405058535262
- License:
- Abstract: Recent advances in LiDAR 3D detection have demonstrated the effectiveness of Transformer-based frameworks in capturing the global dependencies from point cloud spaces, which serialize the 3D voxels into the flattened 1D sequence for iterative self-attention. However, the spatial structure of 3D voxels will be inevitably destroyed during the serialization process. Besides, due to the considerable number of 3D voxels and quadratic complexity of Transformers, multiple sequences are grouped before feeding to Transformers, leading to a limited receptive field. Inspired by the impressive performance of State Space Models (SSM) achieved in the field of 2D vision tasks, in this paper, we propose a novel Unified Mamba (UniMamba), which seamlessly integrates the merits of 3D convolution and SSM in a concise multi-head manner, aiming to perform "local and global" spatial context aggregation efficiently and simultaneously. Specifically, a UniMamba block is designed which mainly consists of spatial locality modeling, complementary Z-order serialization and local-global sequential aggregator. The spatial locality modeling module integrates 3D submanifold convolution to capture the dynamic spatial position embedding before serialization. Then the efficient Z-order curve is adopted for serialization both horizontally and vertically. Furthermore, the local-global sequential aggregator adopts the channel grouping strategy to efficiently encode both "local and global" spatial inter-dependencies using multi-head SSM. Additionally, an encoder-decoder architecture with stacked UniMamba blocks is formed to facilitate multi-scale spatial learning hierarchically. Extensive experiments are conducted on three popular datasets: nuScenes, Waymo and Argoverse 2. Particularly, our UniMamba achieves 70.2 mAP on the nuScenes dataset.
- Abstract(参考訳): LiDARによる3D検出の最近の進歩は,3Dボクセルをフラット化された1Dシーケンスにシリアライズして反復的自己注意を実現する点クラウド空間からグローバルな依存関係をキャプチャする上で,Transformerベースのフレームワークの有効性を実証している。
しかし、3Dボクセルの空間構造は、シリアライズプロセス中に必然的に破壊される。
さらに、トランスフォーマーのかなりの数の3Dボクセルと二次的な複雑さのため、トランスフォーマーに供給する前に複数のシーケンスがグループ化され、受容野が制限される。
本稿では,2次元視覚タスクの分野で達成された状態空間モデル(SSM)の印象的な性能に触発され,簡潔なマルチヘッドで3次元畳み込みとSSMのメリットをシームレスに統合し,「局所的・グローバル的」空間コンテキストを効率よく,かつ同時に実現することを目的とした,新しい統一マンバ(UniMamba)を提案する。
特に、UniMambaブロックは、主に空間的局所性モデリング、相補的なZオーダーシリアライゼーション、局所的グローバルシーケンシャルアグリゲータで構成されている。
空間的局所性モデリングモジュールは、3次元サブマニフォールド畳み込みを統合し、シリアライズ前の動的空間位置埋め込みをキャプチャする。
次に、水平および垂直の両方のシリアライズに効率的なZ次曲線を採用する。
さらに、局所的な逐次アグリゲータはチャネルグループ化戦略を採用し、マルチヘッドSSMを用いて「局所的およびグローバル的」空間的相互依存性を効率的に符号化する。
さらに,UniMambaブロックを積み重ねたエンコーダデコーダアーキテクチャを構築し,マルチスケール空間学習を階層的に促進する。
大規模な実験は、nuScenes、Waymo、Argoverse 2の3つの一般的なデータセットで実施されている。
特に、我々のUniMambaはnuScenesデータセットで70.2mAPを達成した。
関連論文リスト
- NIMBA: Towards Robust and Principled Processing of Point Clouds With SSMs [9.978766637766373]
データ複製を必要とせずに3次元空間構造を維持できる点雲を1次元配列に変換する手法を提案する。
本手法では位置埋め込みは必要とせず, 精度を保ちながら短いシーケンス長が可能である。
論文 参考訳(メタデータ) (2024-10-31T18:58:40Z) - LoG-VMamba: Local-Global Vision Mamba for Medical Image Segmentation [0.9831489366502301]
State Space ModelであるMambaは、最近、畳み込みニューラルネットワーク(CNN)とトランスフォーマーに競合するパフォーマンスを示した。
医療画像セグメンテーション(MIS)を含むコンピュータビジョンタスクにマンバを適応させる様々な試みがなされている。
論文 参考訳(メタデータ) (2024-08-26T17:02:25Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection [59.34834815090167]
3Dボクセルをシリアライズして複数のシーケンスにグループ化し、トランスフォーマーに入力するシリアライズベースの手法は、3Dオブジェクト検出においてその効果を実証している。
グループフリー戦略を用いて、ボクセルの全空間を1つのシーケンスにシリアライズするVoxel SSMを提案する。
論文 参考訳(メタデータ) (2024-06-15T17:45:07Z) - Point Cloud Mamba: Point Cloud Learning via State Space Model [73.7454734756626]
我々は,マンバをベースとしたポイントクラウド法が,トランスフォーマや多層パーセプトロン(MLP)に基づく従来手法よりも優れていることを示す。
特に,マルチ層パーセプトロン(MLP)を用いて,マンバをベースとした点雲法が従来手法より優れていることを示す。
Point Cloud Mambaは、最先端(SOTA)のポイントベースメソッドであるPointNeXtを超え、ScanNN、ModelNet40、ShapeNetPart、S3DISデータセット上での新たなSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-01T18:59:03Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - CL3D: Unsupervised Domain Adaptation for Cross-LiDAR 3D Detection [16.021932740447966]
クロスLiDAR3D検出のためのドメイン適応は、生データ表現に大きなギャップがあるため困難である。
以上の課題を克服する、教師なしのドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2022-12-01T03:22:55Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。