論文の概要: OccMamba: Semantic Occupancy Prediction with State Space Models
- arxiv url: http://arxiv.org/abs/2408.09859v1
- Date: Mon, 19 Aug 2024 10:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 16:44:56.788782
- Title: OccMamba: Semantic Occupancy Prediction with State Space Models
- Title(参考訳): OccMamba: ステートスペースモデルによるセマンティック運用予測
- Authors: Heng Li, Yuenan Hou, Xiaohan Xing, Xiao Sun, Yanyong Zhang,
- Abstract要約: 我々はOccMambaと呼ばれる意味的占有予測のための最初のMambaベースのネットワークを提示する。
単純で効果的な3D-to-1Dリオーダー操作,すなわち高さ優先の2Dヒルベルト展開を提案する。
OccMambaは、3つの一般的な占有予測ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 16.646162677831985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep learning models for semantic occupancy prediction is challenging due to factors such as a large number of occupancy cells, severe occlusion, limited visual cues, complicated driving scenarios, etc. Recent methods often adopt transformer-based architectures given their strong capability in learning input-conditioned weights and long-range relationships. However, transformer-based networks are notorious for their quadratic computation complexity, seriously undermining their efficacy and deployment in semantic occupancy prediction. Inspired by the global modeling and linear computation complexity of the Mamba architecture, we present the first Mamba-based network for semantic occupancy prediction, termed OccMamba. However, directly applying the Mamba architecture to the occupancy prediction task yields unsatisfactory performance due to the inherent domain gap between the linguistic and 3D domains. To relieve this problem, we present a simple yet effective 3D-to-1D reordering operation, i.e., height-prioritized 2D Hilbert expansion. It can maximally retain the spatial structure of point clouds as well as facilitate the processing of Mamba blocks. Our OccMamba achieves state-of-the-art performance on three prevalent occupancy prediction benchmarks, including OpenOccupancy, SemanticKITTI and SemanticPOSS. Notably, on OpenOccupancy, our OccMamba outperforms the previous state-of-the-art Co-Occ by 3.1% IoU and 3.2% mIoU, respectively. Codes will be released upon publication.
- Abstract(参考訳): 意味的占有予測のためのディープラーニングモデルのトレーニングは、多数の占有細胞、重篤な閉塞、限られた視覚的手がかり、複雑な運転シナリオなどの要因のために難しい。
近年の手法は、入力条件付き重みと長距離関係の学習において強力な能力を持つトランスフォーマーアーキテクチャを採用することが多い。
しかし、トランスフォーマーベースのネットワークは2次計算の複雑さで有名であり、セマンティック占有率予測の有効性と展開を著しく損なう。
マンバアーキテクチャのグローバルなモデリングと線形計算の複雑さに触発されて,OccMambaと呼ばれるセマンティック占有予測のための最初のMambaベースのネットワークを提示する。
しかし,Mambaアーキテクチャを占有予測タスクに直接適用すると,言語領域と3Dドメインの間に固有の領域ギャップがあるため,不満足な性能が得られる。
この問題を解消するために,高優先度2Dヒルベルト展開という,シンプルで効果的な3D-to-1Dリオーダー操作を提案する。
点雲の空間構造を最大に保ち、またマンバブロックの処理を容易にすることができる。
我々のOccMambaは、OpenOccupancy、SemanticKITTI、SemanticPOSSを含む3つの一般的な占有率予測ベンチマークで最先端のパフォーマンスを実現しています。
とくにOpenOccupancyでは、OccMambaが前回のCo-Occを3.1%IoUと3.2%mIoUで上回っている。
コードは出版時に公開される。
関連論文リスト
- MambaDepth: Enhancing Long-range Dependency for Self-Supervised Fine-Structured Monocular Depth Estimation [0.0]
MambaDepthは自己監督深度推定に適した多目的ネットワークである。
MambaDepthは、自己教師付き深さ推定におけるU-Netの有効性と、Mambaの高度な能力を組み合わせる。
MambaDepthは、Make3DやCityscapesといった他のデータセットよりも優れた一般化能力を示している。
論文 参考訳(メタデータ) (2024-06-06T22:08:48Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 GFLOPs [1.7648680700685022]
水中画像強調(UIE)技術は,光吸収・散乱による水中画像劣化問題に対処することを目的としている。
近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの手法が広く研究されている。
MambaUIEは、グローバルおよびローカル情報を効率的に合成することができ、非常に少数のパラメータを高い精度で保持する。
論文 参考訳(メタデータ) (2024-04-22T05:12:11Z) - DGMamba: Domain Generalization via Generalized State Space Model [80.82253601531164]
ドメイン一般化(DG)は、様々な場面における分散シフト問題を解決することを目的としている。
Mambaは、新興状態空間モデル(SSM)として、より優れた線形複雑性と大域的受容場を持つ。
本稿では,DGMamba という新たな DG フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-11T14:35:59Z) - ChangeMamba: Remote Sensing Change Detection With Spatiotemporal State Space Model [18.063680125378347]
Mambaアーキテクチャは、一連の自然言語処理タスクにおいて顕著なパフォーマンスを示している。
我々は、バイナリ変更検出、セマンティック変更検出、建築損傷評価のために、MambaBCD、MambaSCD、MambaBDAと呼ばれる対応するフレームワークをカスタマイズする。
3つのフレームワークはいずれも最先端のVisual Mambaアーキテクチャをエンコーダとして採用しており、入力画像からグローバルな空間的情報を完全に学習することができる。
論文 参考訳(メタデータ) (2024-04-04T13:06:25Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image
Segmentation [17.676472608152704]
我々は,新しい3次元医用画像textbfSegmentation textbfMambaモデルであるSegMambaを紹介した。
SegMambaは、状態空間モデルの観点から、全ボリューム特徴モデリングに優れています。
BraTS2023データセットの実験では、SegMambaの有効性と効率が示されている。
論文 参考訳(メタデータ) (2024-01-24T16:17:23Z) - OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic
Occupancy Perception [73.05425657479704]
我々は,最初のセマンティック占有感評価ベンチマークであるOpenOccupancyを提案する。
大規模なnuScenesデータセットを拡張した。
周囲の占有感の複雑さを考慮し、粗い予測を洗練させるためにカスケード占領ネットワーク(CONET)を提案する。
論文 参考訳(メタデータ) (2023-03-07T15:43:39Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。