論文の概要: WinMamba: Multi-Scale Shifted Windows in State Space Model for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2511.13138v1
- Date: Mon, 17 Nov 2025 08:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.076957
- Title: WinMamba: Multi-Scale Shifted Windows in State Space Model for 3D Object Detection
- Title(参考訳): WinMamba: 3Dオブジェクト検出のための状態空間モデルにおけるマルチスケールシフトWindows
- Authors: Longhui Zheng, Qiming Xia, Xiaolu Chen, Zhaoliang Liu, Chenglu Wen,
- Abstract要約: WinMambaは、WinMambaブロックを積み重ねた新しいMambaベースの3Dフィーチャエンコードバックボーンである。
堅牢なマルチスケール表現でバックボーンを強化するため、WinMambaブロックにはウィンドウスケール適応モジュールが組み込まれている。
KITTIとデータセットの実験は、WinMambaがベースラインを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 22.498942151484624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection is critical for autonomous driving, yet it remains fundamentally challenging to simultaneously maximize computational efficiency and capture long-range spatial dependencies. We observed that Mamba-based models, with their linear state-space design, capture long-range dependencies at lower cost, offering a promising balance between efficiency and accuracy. However, existing methods rely on axis-aligned scanning within a fixed window, inevitably discarding spatial information. To address this problem, we propose WinMamba, a novel Mamba-based 3D feature-encoding backbone composed of stacked WinMamba blocks. To enhance the backbone with robust multi-scale representation, the WinMamba block incorporates a window-scale-adaptive module that compensates voxel features across varying resolutions during sampling. Meanwhile, to obtain rich contextual cues within the linear state space, we equip the WinMamba layer with a learnable positional encoding and a window-shift strategy. Extensive experiments on the KITTI and Waymo datasets demonstrate that WinMamba significantly outperforms the baseline. Ablation studies further validate the individual contributions of the WSF and AWF modules in improving detection accuracy. The code will be made publicly available.
- Abstract(参考訳): 3次元物体検出は自律運転において重要であるが、計算効率を同時に最大化し、長距離空間依存を捉えることは基本的に困難である。
我々は, 線形状態空間設計によるマンバモデルにおいて, 低コストで長距離依存を捕捉し, 効率と精度の両立を期待できることを示した。
しかし、既存の手法は固定窓内の軸方向走査に依存しており、必然的に空間情報を破棄する。
そこで本研究では,WinMambaブロックを積み重ねた3次元特徴符号化バックボーンのWinMambaを提案する。
堅牢なマルチスケール表現でバックボーンを強化するため、WinMambaブロックにはウィンドウスケール適応モジュールが組み込まれている。
一方、線形状態空間内でリッチな文脈的手がかりを得るために、WinMamba層に学習可能な位置符号化とウィンドウシフト戦略を設ける。
KITTIとWaymoのデータセットに関する大規模な実験は、WinMambaがベースラインを大幅に上回っていることを示している。
アブレーション研究は、検出精度を向上させるために、WSFおよびAWFモジュールの個々の寄与をさらに検証する。
コードは公開されます。
関連論文リスト
- AtrousMamaba: An Atrous-Window Scanning Visual State Space Model for Remote Sensing Change Detection [29.004019252136565]
本稿では,グローバルな文脈情報の統合と微粒な局所的詳細情報の抽出のバランスをとる新しいモデルであるAtrousMambaを提案する。
AWVSS(Atrous window scan visual state space)モジュールを活用することで、バイナリチェンジ検出(BCD)とセマンティックチェンジ検出(SCD)のためのエンド・ツー・エンドのMambaベースのフレームワークを設計する。
6つのベンチマークデータセットの実験結果は、提案フレームワークが既存のCNNベース、Transformerベース、Mambaベースの手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-07-22T02:36:16Z) - ConMamba: Contrastive Vision Mamba for Plant Disease Detection [3.60543005189868]
植物病検出(PDD)は精密農業の重要な側面である。
既存のディープラーニング手法は、広範に注釈付けされたデータセットに依存していることが多い。
PDD用に特別に設計された新しいフレームワークであるConMambaを提案する。
論文 参考訳(メタデータ) (2025-06-03T03:01:38Z) - UniMamba: Unified Spatial-Channel Representation Learning with Group-Efficient Mamba for LiDAR-based 3D Object Detection [53.785766442201094]
LiDAR 3D検出の最近の進歩は、ポイントクラウド空間からグローバルな依存関係をキャプチャするTransformerベースのフレームワークの有効性を示している。
トランスフォーマーのかなりの数の3Dボクセルと二次的な複雑さのため、トランスフォーマーに供給する前に複数のシーケンスがグループ化され、受容野が制限される。
2次元視覚タスクの分野で達成された状態空間モデル(SSM)の印象的な性能に触発されて、我々は新しい統一マンバ(UniMamba)を提案する。
特に、UniMambaブロックは、主にローカリティモデリング、Zオーダーシリアライゼーション、局所グローバルシーケンシャルアグリゲータで構成されている。
論文 参考訳(メタデータ) (2025-03-15T06:22:31Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - QuadMamba: Learning Quadtree-based Selective Scan for Visual State Space Model [16.01259690063522]
QuadMambaと呼ばれる新しいビジョンMambaモデルは、クアッドツリーベースのイメージパーティションとスキャンを通じて、さまざまな粒度のローカル依存関係をキャプチャする。
QuadMambaは、画像分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、さまざまなビジョンタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-09T12:03:50Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。