論文の概要: STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2412.20084v1
- Date: Sat, 28 Dec 2024 08:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:35.137220
- Title: STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection
- Title(参考訳): STNMamba:ビデオ異常検出のためのマンバに基づく時空間正規化学習
- Authors: Zhangxun Li, Mengyang Zhao, Xuan Yang, Yang Liu, Jiamu Sheng, Xinhua Zeng, Tian Wang, Kewei Wu, Yu-Gang Jiang,
- Abstract要約: ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
- 参考スコア(独自算出の注目度): 48.997518615379995
- License:
- Abstract: Video anomaly detection (VAD) has been extensively researched due to its potential for intelligent video systems. However, most existing methods based on CNNs and transformers still suffer from substantial computational burdens and have room for improvement in learning spatial-temporal normality. Recently, Mamba has shown great potential for modeling long-range dependencies with linear complexity, providing an effective solution to the above dilemma. To this end, we propose a lightweight and effective Mamba-based network named STNMamba, which incorporates carefully designed Mamba modules to enhance the learning of spatial-temporal normality. Firstly, we develop a dual-encoder architecture, where the spatial encoder equipped with Multi-Scale Vision Space State Blocks (MS-VSSB) extracts multi-scale appearance features, and the temporal encoder employs Channel-Aware Vision Space State Blocks (CA-VSSB) to capture significant motion patterns. Secondly, a Spatial-Temporal Interaction Module (STIM) is introduced to integrate spatial and temporal information across multiple levels, enabling effective modeling of intrinsic spatial-temporal consistency. Within this module, the Spatial-Temporal Fusion Block (STFB) is proposed to fuse the spatial and temporal features into a unified feature space, and the memory bank is utilized to store spatial-temporal prototypes of normal patterns, restricting the model's ability to represent anomalies. Extensive experiments on three benchmark datasets demonstrate that our STNMamba achieves competitive performance with fewer parameters and lower computational costs than existing methods.
- Abstract(参考訳): ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
しかし、CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負担に悩まされており、空間的時間的正規性を学習する余地がある。
最近、Mambaは線形複雑性を伴う長距離依存をモデル化する大きな可能性を示しており、上記のジレンマに対する効果的な解決策を提供している。
そこで我々は,空間的時間的正規性の学習を促進するために,慎重に設計されたマンバモジュールを組み込んだ,軽量で効果的なマンバベースネットワークSTNMambaを提案する。
まず,マルチスケール・ビジョン・スペース・ステート・ブロック(MS-VSSB)を備えた空間エンコーダを用いてマルチスケール・ビジョン・スペース・ステート・ブロック(MS-VSSB)を抽出し,時間エンコーダはチャネル・アウェア・スペース・ステート・ブロック(CA-VSSB)を用いて重要な動きパターンを捉える。
第2に、空間的時間的相互作用モジュール(STIM)を導入し、複数のレベルにわたる空間的情報と時間的情報を統合し、本質的な空間的時間的一貫性の効果的なモデリングを可能にする。
このモジュール内では、空間的・時間的特徴を統一的な特徴空間に融合させるため、空間的・時間的融合ブロック(STFB)が提案され、メモリバンクは通常のパターンの時空間的プロトタイプを格納するために利用され、モデルが異常を表現できる能力を制限する。
3つのベンチマークデータセットに対する大規模な実験により、我々のSTNMambaは既存の手法よりも少ないパラメータと少ない計算コストで競合性能を達成することを示した。
関連論文リスト
- Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion [46.82975707531064]
SSM(Selective State Space Model)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに優れる。
本研究では,地域間直接接続を実現する新しいアプローチであるSpatial-Mambaを提案する。
画像分類,検出,セグメンテーションにおいて,空間マンバは,単一のスキャンであっても,最先端のSSMベースのモデルを達成したり,超えたりしていることを示す。
論文 参考訳(メタデータ) (2024-10-19T12:56:58Z) - CollaMamba: Efficient Collaborative Perception with Cross-Agent Spatial-Temporal State Space Model [12.461378793357705]
マルチエージェント協調認識は環境のより深い理解を促進する。
協調知覚の最近の研究は、主にCNNやトランスフォーマーを用いて空間次元における特徴表現と融合を学習している。
資源効率の良い時間空間協調状態空間モデルCollaMambaを提案する。
論文 参考訳(メタデータ) (2024-09-12T02:50:04Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。
具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。
この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文 参考訳(メタデータ) (2024-08-07T04:38:03Z) - RSCaMa: Remote Sensing Image Change Captioning with State Space Model [29.945966783242337]
リモートセンシング画像変化キャプション(RSICC)は、言語における多時間リモートセンシング画像間の表面的変化を記述することを目的としている。
これは、時間的特徴の空間的および時間的モデリングに挑戦する。
本稿では,複数のCaMa層を通した空間空間空間モデリングを効率的に行う新しいRSCaMaモデルを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:31:00Z) - S$^2$Mamba: A Spatial-spectral State Space Model for Hyperspectral Image Classification [44.99672241508994]
ハイパースペクトル画像(HSI)を用いた土地被覆解析は、空間分解能の低さと複雑なスペクトル情報のため、未解決の課題である。
ハイパースペクトル画像分類のための空間スペクトル状態空間モデルであるS$2$Mambaを提案する。
論文 参考訳(メタデータ) (2024-04-28T15:12:56Z) - MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection [53.03687787922032]
長距離モデリングと線形効率の優れたマンバモデルが注目されている。
MambaADは、事前訓練されたエンコーダと(Locality-Enhanced State Space)LSSモジュールをマルチスケールで備えたMambaデコーダで構成されている。
提案したLSSモジュールは、並列カスケード(Hybrid State Space) HSSブロックとマルチカーネル畳み込み操作を統合し、長距離情報とローカル情報の両方を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-04-09T18:28:55Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。