論文の概要: PillarMamba: Learning Local-Global Context for Roadside Point Cloud via Hybrid State Space Model
- arxiv url: http://arxiv.org/abs/2505.05397v1
- Date: Thu, 08 May 2025 16:33:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.961225
- Title: PillarMamba: Learning Local-Global Context for Roadside Point Cloud via Hybrid State Space Model
- Title(参考訳): PillarMamba: ハイブリッドステートスペースモデルによるロードサイドクラウドのためのローカルグローバルコンテキストの学習
- Authors: Zhang Zhang, Chao Sun, Chao Yue, Da Wen, Tianze Wang, Jianghao Leng,
- Abstract要約: 柱型路面点雲知覚にマンバを導入する。
我々は、PillarMambaと呼ばれるクロスステージステートスペースグループ(CSG)に基づくフレームワークを提案する。
提案手法は,大規模道路側ベンチマークであるDAIR-V2X-Iにおいて,最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 6.919896038096772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Serving the Intelligent Transport System (ITS) and Vehicle-to-Everything (V2X) tasks, roadside perception has received increasing attention in recent years, as it can extend the perception range of connected vehicles and improve traffic safety. However, roadside point cloud oriented 3D object detection has not been effectively explored. To some extent, the key to the performance of a point cloud detector lies in the receptive field of the network and the ability to effectively utilize the scene context. The recent emergence of Mamba, based on State Space Model (SSM), has shaken up the traditional convolution and transformers that have long been the foundational building blocks, due to its efficient global receptive field. In this work, we introduce Mamba to pillar-based roadside point cloud perception and propose a framework based on Cross-stage State-space Group (CSG), called PillarMamba. It enhances the expressiveness of the network and achieves efficient computation through cross-stage feature fusion. However, due to the limitations of scan directions, state space model faces local connection disrupted and historical relationship forgotten. To address this, we propose the Hybrid State-space Block (HSB) to obtain the local-global context of roadside point cloud. Specifically, it enhances neighborhood connections through local convolution and preserves historical memory through residual attention. The proposed method outperforms the state-of-the-art methods on the popular large scale roadside benchmark: DAIR-V2X-I. The code will be released soon.
- Abstract(参考訳): インテリジェントトランスポートシステム(ITS)とV2X(EV-to-Everything)のタスクをこなすことで、コネクテッドカーの認識範囲を拡大し、交通安全を向上させるため、道路側の認識が近年注目を集めている。
しかし,道路側クラウド指向の3次元物体検出は効果的に研究されていない。
ある程度は、ポイントクラウド検出器の性能の鍵は、ネットワークの受容領域とシーンコンテキストを効果的に活用する能力にある。
ステートスペースモデル(SSM)に基づく最近のマンバの出現は、その効率的なグローバルな受容場のために、長い間基礎となるビルディングブロックであった伝統的な畳み込みとトランスフォーマーを揺るがした。
本研究では,PillarMambaと呼ばれるクロスステージステートスペースグループ(CSG)に基づくフレームワークを提案する。
ネットワークの表現性を向上し、クロスステージな特徴融合による効率的な計算を実現する。
しかし、スキャン方向の制限により、状態空間モデルは局所的な接続が破壊され、歴史的関係は忘れ去られた。
そこで本稿では,道路側クラウドのローカル・グローバルなコンテキストを得るために,Hybrid State-space Block (HSB)を提案する。
具体的には、局所的な畳み込みを通じて近隣のつながりを高め、残留注意を通して歴史的記憶を保存する。
提案手法は,大規模道路側ベンチマークであるDAIR-V2X-Iにおいて,最先端の手法よりも優れている。
コードはまもなくリリースされる。
関連論文リスト
- TrafficLoc: Localizing Traffic Surveillance Cameras in 3D Scenes [49.43995864524434]
本稿では,画像間クラウド登録(I2P)手法であるTrafficLocを提案する。
大規模な現実世界の交差点データセットの欠如を克服するため、カルラの75の都市と農村の交差点を持つ新しいシミュレーションデータセットであるCarla Intersectionを紹介した。
我々のTrafficLocは、Carla Intersection上でSOTA I2P法(最大86%)よりも大幅に性能を向上し、実世界のデータに対してよく一般化する。
論文 参考訳(メタデータ) (2024-12-13T17:42:53Z) - CoMamba: Real-time Cooperative Perception Unlocked with State Space Models [39.87600356189242]
CoMambaは、リアルタイム車載認識にステートスペースモデルを活用するために設計された、新しい3D検出フレームワークである。
CoMambaは、リアルタイム処理能力を維持しながら、既存の方法よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-09-16T20:02:19Z) - OverlapMamba: Novel Shift State Space Model for LiDAR-based Place Recognition [10.39935021754015]
位置認識のための新しいネットワークであるOverlapMambaを開発した。
本手法は,以前に訪れた場所を異なる方向から横断する場合でも,ループの閉鎖を効果的に検出する。
生のレンジビューの入力に基づいて、典型的なLiDARと複数ビューの組み合わせ法を時間的複雑さと速度で上回っている。
論文 参考訳(メタデータ) (2024-05-13T17:46:35Z) - RCooper: A Real-world Large-scale Dataset for Roadside Cooperative Perception [8.145851017138618]
実世界の大規模RCooperデータセットを公開し、実用的な道路側協調認識の研究を華々しくする。
データセットは,2つの代表的なトラフィックシーンを含む,50kイメージと30kポイントのクラウドで構成されている。
構築されたベンチマークは、道路側協調認識の有効性を証明し、さらなる研究の方向性を示す。
論文 参考訳(メタデータ) (2024-03-15T09:44:02Z) - Point Cloud Mamba: Point Cloud Learning via State Space Model [73.7454734756626]
我々は,マンバをベースとしたポイントクラウド法が,トランスフォーマや多層パーセプトロン(MLP)に基づく従来手法よりも優れていることを示す。
特に,マルチ層パーセプトロン(MLP)を用いて,マンバをベースとした点雲法が従来手法より優れていることを示す。
Point Cloud Mambaは、最先端(SOTA)のポイントベースメソッドであるPointNeXtを超え、ScanNN、ModelNet40、ShapeNetPart、S3DISデータセット上での新たなSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-01T18:59:03Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Road Network Guided Fine-Grained Urban Traffic Flow Inference [108.64631590347352]
粗いトラフィックからのきめ細かなトラフィックフローの正確な推測は、新たな重要な問題である。
本稿では,道路ネットワークの知識を活かした新しい道路対応交通流磁化器(RATFM)を提案する。
提案手法は,高品質なトラフィックフローマップを作成できる。
論文 参考訳(メタデータ) (2021-09-29T07:51:49Z) - SPIN Road Mapper: Extracting Roads from Aerial Images via Spatial and
Interaction Space Graph Reasoning for Autonomous Driving [64.10636296274168]
道路抽出は、自律航法システムを構築するための重要なステップである。
この問題に対して単に畳み込みニューラルネットワーク(ConvNets)を使用することは、画像内の道路セグメント間の遠い依存関係をキャプチャする非効率であるため、効果がない。
本研究では,ConvNetに接続した時,特徴写像から投影された空間空間および相互作用空間上に構築されたグラフの推論を行う空間空間グラフ推論(SPIN)モジュールを提案する。
論文 参考訳(メタデータ) (2021-09-16T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。