論文の概要: OccMamba: Semantic Occupancy Prediction with State Space Models
- arxiv url: http://arxiv.org/abs/2408.09859v1
- Date: Mon, 19 Aug 2024 10:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 16:44:56.788782
- Title: OccMamba: Semantic Occupancy Prediction with State Space Models
- Title(参考訳): OccMamba: ステートスペースモデルによるセマンティック運用予測
- Authors: Heng Li, Yuenan Hou, Xiaohan Xing, Xiao Sun, Yanyong Zhang,
- Abstract要約: 我々はOccMambaと呼ばれる意味的占有予測のための最初のMambaベースのネットワークを提示する。
単純で効果的な3D-to-1Dリオーダー操作,すなわち高さ優先の2Dヒルベルト展開を提案する。
OccMambaは、3つの一般的な占有予測ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 16.646162677831985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep learning models for semantic occupancy prediction is challenging due to factors such as a large number of occupancy cells, severe occlusion, limited visual cues, complicated driving scenarios, etc. Recent methods often adopt transformer-based architectures given their strong capability in learning input-conditioned weights and long-range relationships. However, transformer-based networks are notorious for their quadratic computation complexity, seriously undermining their efficacy and deployment in semantic occupancy prediction. Inspired by the global modeling and linear computation complexity of the Mamba architecture, we present the first Mamba-based network for semantic occupancy prediction, termed OccMamba. However, directly applying the Mamba architecture to the occupancy prediction task yields unsatisfactory performance due to the inherent domain gap between the linguistic and 3D domains. To relieve this problem, we present a simple yet effective 3D-to-1D reordering operation, i.e., height-prioritized 2D Hilbert expansion. It can maximally retain the spatial structure of point clouds as well as facilitate the processing of Mamba blocks. Our OccMamba achieves state-of-the-art performance on three prevalent occupancy prediction benchmarks, including OpenOccupancy, SemanticKITTI and SemanticPOSS. Notably, on OpenOccupancy, our OccMamba outperforms the previous state-of-the-art Co-Occ by 3.1% IoU and 3.2% mIoU, respectively. Codes will be released upon publication.
- Abstract(参考訳): 意味的占有予測のためのディープラーニングモデルのトレーニングは、多数の占有細胞、重篤な閉塞、限られた視覚的手がかり、複雑な運転シナリオなどの要因のために難しい。
近年の手法は、入力条件付き重みと長距離関係の学習において強力な能力を持つトランスフォーマーアーキテクチャを採用することが多い。
しかし、トランスフォーマーベースのネットワークは2次計算の複雑さで有名であり、セマンティック占有率予測の有効性と展開を著しく損なう。
マンバアーキテクチャのグローバルなモデリングと線形計算の複雑さに触発されて,OccMambaと呼ばれるセマンティック占有予測のための最初のMambaベースのネットワークを提示する。
しかし,Mambaアーキテクチャを占有予測タスクに直接適用すると,言語領域と3Dドメインの間に固有の領域ギャップがあるため,不満足な性能が得られる。
この問題を解消するために,高優先度2Dヒルベルト展開という,シンプルで効果的な3D-to-1Dリオーダー操作を提案する。
点雲の空間構造を最大に保ち、またマンバブロックの処理を容易にすることができる。
我々のOccMambaは、OpenOccupancy、SemanticKITTI、SemanticPOSSを含む3つの一般的な占有率予測ベンチマークで最先端のパフォーマンスを実現しています。
とくにOpenOccupancyでは、OccMambaが前回のCo-Occを3.1%IoUと3.2%mIoUで上回っている。
コードは出版時に公開される。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Exploring contextual modeling with linear complexity for point cloud segmentation [43.36716250540622]
効率的なポイントクラウドセグメンテーションアーキテクチャの鍵となるコンポーネントを同定する。
我々は,Mambaが線形計算複雑性を特徴とし,トランスフォーマーに比べて優れたデータと推論効率を提供することを示した。
さらに、ポイントクラウドセグメンテーションのための標準のMambaをさらに強化し、その2つの重要な欠点を特定します。
論文 参考訳(メタデータ) (2024-10-28T16:56:30Z) - MambaClinix: Hierarchical Gated Convolution and Mamba-Based U-Net for Enhanced 3D Medical Image Segmentation [6.673169053236727]
医用画像分割のための新しいU字型アーキテクチャであるMambaClinixを提案する。
MambaClinixは、階層的なゲート畳み込みネットワークとMambaを適応的なステージワイドフレームワークに統合する。
以上の結果から,MambaClinixは低モデルの複雑さを維持しつつ高いセグメンテーション精度を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-09-19T07:51:14Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - MambaOcc: Visual State Space Model for BEV-based Occupancy Prediction with Local Adaptive Reordering [31.239405105904574]
そこで我々は,3次元シナリオ表現の負担を軽減するために,BEV機能を採用したマンバ型占有予測手法を提案する。
Occ3D-nuScenesデータセットの実験は、MambaOccが精度と計算効率の両方で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-08-21T09:29:45Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - ChangeMamba: Remote Sensing Change Detection With Spatiotemporal State Space Model [18.063680125378347]
Mambaアーキテクチャは、一連の自然言語処理タスクにおいて顕著なパフォーマンスを示している。
我々は、バイナリ変更検出、セマンティック変更検出、建築損傷評価のために、MambaBCD、MambaSCD、MambaBDAと呼ばれる対応するフレームワークをカスタマイズする。
3つのフレームワークはいずれも最先端のVisual Mambaアーキテクチャをエンコーダとして採用しており、入力画像からグローバルな空間的情報を完全に学習することができる。
論文 参考訳(メタデータ) (2024-04-04T13:06:25Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic
Occupancy Perception [73.05425657479704]
我々は,最初のセマンティック占有感評価ベンチマークであるOpenOccupancyを提案する。
大規模なnuScenesデータセットを拡張した。
周囲の占有感の複雑さを考慮し、粗い予測を洗練させるためにカスケード占領ネットワーク(CONET)を提案する。
論文 参考訳(メタデータ) (2023-03-07T15:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。