Fugu-MT 論文翻訳(概要): Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection

論文の概要: Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection

arxiv url: http://arxiv.org/abs/2406.10700v1
Date: Sat, 15 Jun 2024 17:45:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 23:14:08.703898
Title: Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection
Title（参考訳）: Voxel Mamba:Point Cloudによる3Dオブジェクト検出のためのグループフリーな状態空間モデル
Authors: Guowen Zhang, Lue Fan, Chenhang He, Zhen Lei, Zhaoxiang Zhang, Lei Zhang,
Abstract要約: 3Dボクセルをシリアライズして複数のシーケンスにグループ化し、トランスフォーマーに入力するシリアライズベースの手法は、3Dオブジェクト検出においてその効果を実証している。グループフリー戦略を用いて、ボクセルの全空間を1つのシーケンスにシリアライズするVoxel SSMを提案する。
参考スコア（独自算出の注目度）: 59.34834815090167
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Serialization-based methods, which serialize the 3D voxels and group them into multiple sequences before inputting to Transformers, have demonstrated their effectiveness in 3D object detection. However, serializing 3D voxels into 1D sequences will inevitably sacrifice the voxel spatial proximity. Such an issue is hard to be addressed by enlarging the group size with existing serialization-based methods due to the quadratic complexity of Transformers with feature sizes. Inspired by the recent advances of state space models (SSMs), we present a Voxel SSM, termed as Voxel Mamba, which employs a group-free strategy to serialize the whole space of voxels into a single sequence. The linear complexity of SSMs encourages our group-free design, alleviating the loss of spatial proximity of voxels. To further enhance the spatial proximity, we propose a Dual-scale SSM Block to establish a hierarchical structure, enabling a larger receptive field in the 1D serialization curve, as well as more complete local regions in 3D space. Moreover, we implicitly apply window partition under the group-free framework by positional encoding, which further enhances spatial proximity by encoding voxel positional information. Our experiments on Waymo Open Dataset and nuScenes dataset show that Voxel Mamba not only achieves higher accuracy than state-of-the-art methods, but also demonstrates significant advantages in computational efficiency.
Abstract（参考訳）: 3Dボクセルをシリアライズして複数のシーケンスにグループ化し、トランスフォーマーに入力するシリアライズベースの手法は、3Dオブジェクト検出においてその効果を実証している。しかし、3Dボクセルを1D配列にシリアライズすることは、必然的にボクセルの空間的近接を犠牲にする。このような問題は、機能サイズを持つトランスフォーマーの2次複雑さのため、既存のシリアライズベースのメソッドでグループサイズを拡大するのは難しい。状態空間モデル(SSM)の最近の進歩に触発されて、Voxel Mambaと呼ばれるVoxel SSMを提示する。 SSMの線形複雑性はグループフリーな設計を奨励し、ボクセルの空間的近接の損失を軽減する。空間的近接性をさらに高めるため, 2次元SSMブロックを用いて階層構造を構築することで, 1次元直列化曲線における受容場を大きくし, 3次元空間におけるより完全な局所領域を実現する。さらに、位置符号化によりグループフリーなフレームワークにウィンドウ分割を暗黙的に適用し、ボクセル位置情報を符号化することで空間的近接性を高める。 Waymo Open Dataset と nuScenes データセットを用いた実験により,Voxel Mamba は最先端の手法よりも高い精度を達成できるだけでなく,計算効率において大きな優位性を示す。

関連論文リスト

UniMamba: Unified Spatial-Channel Representation Learning with Group-Efficient Mamba for LiDAR-based 3D Object Detection [64.65405058535262]
LiDAR 3D検出の最近の進歩は、ポイントクラウド空間からグローバルな依存関係をキャプチャするTransformerベースのフレームワークの有効性を示している。トランスフォーマーのかなりの数の3Dボクセルと二次的な複雑さのため、トランスフォーマーに供給する前に複数のシーケンスがグループ化され、受容野が制限される。 2次元視覚タスクの分野で達成された状態空間モデル(SSM)の印象的な性能に触発されて、我々は新しい統一マンバ(UniMamba)を提案する。特に、UniMambaブロックは、主にローカリティモデリング、Zオーダーシリアライゼーション、局所グローバルシーケンシャルアグリゲータで構成されている。
論文参考訳（メタデータ） (2025-03-15T06:22:31Z)
Global-Aware Monocular Semantic Scene Completion with State Space Models [25.621011183332094]
Monocular Semantic Scene Completion (MonoSSC)は、単一の画像から3D環境を再構成し、解釈する。既存の手法は、しばしば畳み込みネットワーク(CNN)の局所受容領域によって制約される。 GA-MonoSSCは2次元画像領域と3次元空間の両方のグローバルコンテキストを効果的にキャプチャするMonoSSCのハイブリッドアーキテクチャである。
論文参考訳（メタデータ） (2025-03-09T11:55:40Z)
NIMBA: Towards Robust and Principled Processing of Point Clouds With SSMs [9.978766637766373]
データ複製を必要とせずに3次元空間構造を維持できる点雲を1次元配列に変換する手法を提案する。本手法では位置埋め込みは必要とせず, 精度を保ちながら短いシーケンス長が可能である。
論文参考訳（メタデータ） (2024-10-31T18:58:40Z)
Point Cloud Mamba: Point Cloud Learning via State Space Model [73.7454734756626]
我々は,マンバをベースとしたポイントクラウド法が,トランスフォーマや多層パーセプトロン(MLP)に基づく従来手法よりも優れていることを示す。特に,マルチ層パーセプトロン(MLP)を用いて,マンバをベースとした点雲法が従来手法より優れていることを示す。 Point Cloud Mambaは、最先端(SOTA)のポイントベースメソッドであるPointNeXtを超え、ScanNN、ModelNet40、ShapeNetPart、S3DISデータセット上での新たなSOTAパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-03-01T18:59:03Z)
MsSVT++: Mixed-scale Sparse Voxel Transformer with Center Voting for 3D Object Detection [19.8309983660935]
MsSVT++は、Mixed-scale Sparse Voxel Transformerである。両タイプの情報を、分割・コンカレントアプローチで同時にキャプチャする。 MsSVT++は、さまざまなデータセット間で一貫して例外的なパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-01-22T06:42:23Z)
Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D Object Detection [49.324070632356296]
我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
論文参考訳（メタデータ） (2023-04-06T05:00:58Z)
CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文参考訳（メタデータ） (2022-10-09T13:38:48Z)
Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from Point Clouds [16.69887974230884]
Transformerは多くの2次元視覚タスクで有望なパフォーマンスを示した。ポイントクラウドは長いシーケンスであり、3D空間に不均一に分散しているため、大規模なポイントクラウドデータの自己アテンションを計算するのは困難である。既存の方法は、通常、ポイントを同じ大きさのクラスタにグループ化したり、離散化された表現に対して畳み込み的な自己アテンションを実行することによって、自己アテンションを局所的に計算する。本稿では,Voxel Set Transformer (VoxSeT) と呼ばれる新しいボクセルベースアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-03-19T12:31:46Z)
Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文参考訳（メタデータ） (2021-09-06T14:10:22Z)
Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文参考訳（メタデータ） (2020-11-19T18:53:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。