論文の概要: Polar Hierarchical Mamba: Towards Streaming LiDAR Object Detection with Point Clouds as Egocentric Sequences
- arxiv url: http://arxiv.org/abs/2506.06944v1
- Date: Sat, 07 Jun 2025 22:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.578409
- Title: Polar Hierarchical Mamba: Towards Streaming LiDAR Object Detection with Point Clouds as Egocentric Sequences
- Title(参考訳): 極性階層型マンバ:Egocentric Sequencesとしての点雲を用いたLiDARオブジェクト検出のストリーミングに向けて
- Authors: Mellon M. Zhang, Glen Chou, Saibal Mukhopadhyay,
- Abstract要約: リアルタイム物体検出は、リアルタイム認識が低レイテンシと高スループットを必要とする自動運転車にとって不可欠である。
最近のMambaベースの状態空間モデル(SSM)は、LiDARの認識を約束しているが、フルスキャン環境でのみである。
我々は、極座標ストリーミングLiDAR用に設計された新しいSSMアーキテクチャであるPolar Hierarchical Mambaを提案する。
- 参考スコア(独自算出の注目度): 12.420075828114326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and efficient object detection is essential for autonomous vehicles, where real-time perception requires low latency and high throughput. LiDAR sensors provide robust depth information, but conventional methods process full 360{\deg} scans in a single pass, introducing significant delay. Streaming approaches address this by sequentially processing partial scans in the native polar coordinate system, yet they rely on translation-invariant convolutions that are misaligned with polar geometry -- resulting in degraded performance or requiring complex distortion mitigation. Recent Mamba-based state space models (SSMs) have shown promise for LiDAR perception, but only in the full-scan setting, relying on geometric serialization and positional embeddings that are memory-intensive and ill-suited to streaming. We propose Polar Hierarchical Mamba (PHiM), a novel SSM architecture designed for polar-coordinate streaming LiDAR. PHiM uses local bidirectional Mamba blocks for intra-sector spatial encoding and a global forward Mamba for inter-sector temporal modeling, replacing convolutions and positional encodings with distortion-aware, dimensionally-decomposed operations. PHiM sets a new state-of-the-art among streaming detectors on the Waymo Open Dataset, outperforming the previous best by 10\% and matching full-scan baselines at twice the throughput. Code will be available at https://github.com/meilongzhang/Polar-Hierarchical-Mamba .
- Abstract(参考訳): リアルタイム認識が低レイテンシと高スループットを必要とする自動運転車には、正確で効率的な物体検出が不可欠である。
LiDARセンサーは、堅牢な深度情報を提供するが、従来の方法では、完全な360{\deg}スキャンを1回のパスで処理し、かなりの遅延を引き起こす。
ストリーミングアプローチは、ネイティブの極座標系で部分的なスキャンを逐次処理することでこの問題に対処するが、それらは極座標系と不一致な変換不変の畳み込みに依存している。
最近のMambaベースの状態空間モデル(SSM)は、LiDARの認識を約束しているが、フルスキャン環境では、メモリ集約的でストリーミングに不適な幾何学的シリアライゼーションと位置埋め込みに依存している。
我々は、極座標ストリーミングLiDAR用に設計された新しいSSMアーキテクチャであるPolar Hierarchical Mamba (PHiM)を提案する。
PHiMは、局所的な双方向Mambaブロックをセクタ内空間符号化に、グローバルフォワードMambaをセクタ間時間モデリングに使用し、畳み込みや位置エンコーディングを歪み認識、次元分解操作に置き換える。
PHiMは、Waymo Open Dataset上のストリーミング検出装置の中で、新たな最先端技術を設定し、前回の最高値を10倍に上回り、フルスキャンベースラインを2倍のスループットで整合させる。
コードはhttps://github.com/meilongzhang/Polar-Hierarchical-Mambaで入手できる。
関連論文リスト
- UniMamba: Unified Spatial-Channel Representation Learning with Group-Efficient Mamba for LiDAR-based 3D Object Detection [64.65405058535262]
LiDAR 3D検出の最近の進歩は、ポイントクラウド空間からグローバルな依存関係をキャプチャするTransformerベースのフレームワークの有効性を示している。
トランスフォーマーのかなりの数の3Dボクセルと二次的な複雑さのため、トランスフォーマーに供給する前に複数のシーケンスがグループ化され、受容野が制限される。
2次元視覚タスクの分野で達成された状態空間モデル(SSM)の印象的な性能に触発されて、我々は新しい統一マンバ(UniMamba)を提案する。
特に、UniMambaブロックは、主にローカリティモデリング、Zオーダーシリアライゼーション、局所グローバルシーケンシャルアグリゲータで構成されている。
論文 参考訳(メタデータ) (2025-03-15T06:22:31Z) - 2DMCG:2DMambawith Change Flow Guidance for Change Detection in Remote Sensing [4.18306618346671]
本稿では、2次元空間情報をキャプチャする能力を高めるビジョンマンバ変種に基づく効率的なフレームワークを提案する。
このフレームワークは、2DMambaエンコーダを使用して、多時間画像からグローバルなコンテキスト空間情報を効果的に学習する。
ベンチマークデータセットの実験は、最先端の手法と比較して、我々のフレームワークの優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-01T14:55:13Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection [59.34834815090167]
3Dボクセルをシリアライズして複数のシーケンスにグループ化し、トランスフォーマーに入力するシリアライズベースの手法は、3Dオブジェクト検出においてその効果を実証している。
グループフリー戦略を用いて、ボクセルの全空間を1つのシーケンスにシリアライズするVoxel SSMを提案する。
論文 参考訳(メタデータ) (2024-06-15T17:45:07Z) - MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection [53.03687787922032]
長距離モデリングと線形効率の優れたマンバモデルが注目されている。
本研究は,マルチクラス非教師付き異常検出へのMambaADの適用の先駆者であり,MambaADを提示する。
提案したLSSモジュールは、並列カスケード(Hybrid State Space) HSSブロックとマルチカーネル畳み込み操作を統合し、長距離情報とローカル情報の両方を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-04-09T18:28:55Z) - Align Deep Features for Oriented Object Detection [40.28244152216309]
本稿では、FAM(Feature Alignment Module)とODM(Oriented Detection Module)の2つのモジュールからなる単発アライメントネットワーク(S$2$A-Net)を提案する。
FAMは、アンカー・リファインメント・ネットワークで高品質なアンカーを生成し、アンカーボックスに応じた畳み込み特徴と、新しいアライメント・コンボリューション・コンボリューションとを適応的に調整することができる。
ODMは、まず、向き情報を符号化するためにアクティブな回転フィルタを採用し、次に、分類スコアとローカライゼーション精度の不整合を軽減するために、向きに敏感で方向不変な特徴を生成する。
論文 参考訳(メタデータ) (2020-08-21T09:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。