論文の概要: MambaOcc: Visual State Space Model for BEV-based Occupancy Prediction with Local Adaptive Reordering
- arxiv url: http://arxiv.org/abs/2408.11464v1
- Date: Wed, 21 Aug 2024 09:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 17:39:23.953404
- Title: MambaOcc: Visual State Space Model for BEV-based Occupancy Prediction with Local Adaptive Reordering
- Title(参考訳): MambaOcc: 局所適応リオーダを用いたBEVによる運転予測のための視覚状態空間モデル
- Authors: Yonglin Tian, Songlin Bai, Zhiyao Luo, Yutong Wang, Yisheng Lv, Fei-Yue Wang,
- Abstract要約: そこで我々は,3次元シナリオ表現の負担を軽減するために,BEV機能を採用したマンバ型占有予測手法を提案する。
Occ3D-nuScenesデータセットの実験は、MambaOccが精度と計算効率の両方で最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 31.239405105904574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occupancy prediction has attracted intensive attention and shown great superiority in the development of autonomous driving systems. The fine-grained environmental representation brought by occupancy prediction in terms of both geometry and semantic information has facilitated the general perception and safe planning under open scenarios. However, it also brings high computation costs and heavy parameters in existing works that utilize voxel-based 3d dense representation and Transformer-based quadratic attention. To address these challenges, in this paper, we propose a Mamba-based occupancy prediction method (MambaOcc) adopting BEV features to ease the burden of 3D scenario representation, and linear Mamba-style attention to achieve efficient long-range perception. Besides, to address the sensitivity of Mamba to sequence order, we propose a local adaptive reordering (LAR) mechanism with deformable convolution and design a hybrid BEV encoder comprised of convolution layers and Mamba. Extensive experiments on the Occ3D-nuScenes dataset demonstrate that MambaOcc achieves state-of-the-art performance in terms of both accuracy and computational efficiency. For example, compared to FlashOcc, MambaOcc delivers superior results while reducing the number of parameters by 42\% and computational costs by 39\%. Code will be available at https://github.com/Hub-Tian/MambaOcc.
- Abstract(参考訳): 運転予測は集中的に注目され、自律運転システムの開発において大きな優位性を示している。
幾何情報と意味情報の両方の観点からの占有予測によるきめ細かい環境表現は、オープンシナリオ下での一般的な認識と安全な計画を促進する。
しかし、Voxelベースの3d高密度表現とTransformerベースの二次的注意を利用する既存の作業には、高い計算コストと重いパラメータがもたらされる。
本稿では,3次元シナリオ表現の負担を軽減するために,BEV機能を用いたマンバ型占有予測手法(MambaOcc)を提案する。
さらに,Mambaの配列順序に対する感度に対処するため,変形可能な畳み込みを有する局所適応整合(LAR)機構を提案し,畳み込み層とマンバからなるハイブリッドBEVエンコーダを設計する。
Occ3D-nuScenesデータセットの大規模な実験は、MambaOccが精度と計算効率の両方で最先端のパフォーマンスを達成することを示した。
例えば、FlashOccと比較して、MambaOccはパラメータの数を42 %、計算コストを39 %削減し、優れた結果をもたらす。
コードはhttps://github.com/Hub-Tian/MambaOcc.comから入手できる。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Bi-Mamba: Towards Accurate 1-Bit State Space Models [28.478762133816726]
Bi-Mambaは、より効率的な大規模言語モデルのために設計されたスケーラブルでパワフルな1ビットのMambaアーキテクチャである。
Bi-Mambaは完全な精度(FP16やBF16など)に匹敵するパフォーマンスを実現し、ポストトレーニングバイナリ化(PTB)のMambaベースラインよりもはるかに精度が高い。
論文 参考訳(メタデータ) (2024-11-18T18:59:15Z) - HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。
これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。
本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。
また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - UNetMamba: An Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images [4.9571046933387395]
UNetMambaは、MambaをベースにしたUNetに似たセマンティックセグメンテーションモデルである。
UNetMambaは、mIoUによる最先端の手法よりも、LoveDAでは0.87%、ISPRS Vaihingenでは0.39%向上している。
論文 参考訳(メタデータ) (2024-08-21T11:53:53Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - OccMamba: Semantic Occupancy Prediction with State Space Models [16.646162677831985]
我々はOccMambaと呼ばれる意味的占有予測のための最初のMambaベースのネットワークを提示する。
単純で効果的な3D-to-1Dリオーダー操作,すなわち高さ優先の2Dヒルベルト展開を提案する。
OccMambaは、3つの一般的な占有予測ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-19T10:07:00Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic
Occupancy Perception [73.05425657479704]
我々は,最初のセマンティック占有感評価ベンチマークであるOpenOccupancyを提案する。
大規模なnuScenesデータセットを拡張した。
周囲の占有感の複雑さを考慮し、粗い予測を洗練させるためにカスケード占領ネットワーク(CONET)を提案する。
論文 参考訳(メタデータ) (2023-03-07T15:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。