Fugu-MT 論文翻訳(概要): STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection

論文の概要: STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection

arxiv url: http://arxiv.org/abs/2412.20084v1
Date: Sat, 28 Dec 2024 08:49:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.473302
Title: STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection
Title（参考訳）: STNMamba:ビデオ異常検出のためのマンバに基づく時空間正規化学習
Authors: Zhangxun Li, Mengyang Zhao, Xuan Yang, Yang Liu, Jiamu Sheng, Xinhua Zeng, Tian Wang, Kewei Wu, Yu-Gang Jiang,
Abstract要約: ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。 CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
参考スコア（独自算出の注目度）: 48.997518615379995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video anomaly detection (VAD) has been extensively researched due to its potential for intelligent video systems. However, most existing methods based on CNNs and transformers still suffer from substantial computational burdens and have room for improvement in learning spatial-temporal normality. Recently, Mamba has shown great potential for modeling long-range dependencies with linear complexity, providing an effective solution to the above dilemma. To this end, we propose a lightweight and effective Mamba-based network named STNMamba, which incorporates carefully designed Mamba modules to enhance the learning of spatial-temporal normality. Firstly, we develop a dual-encoder architecture, where the spatial encoder equipped with Multi-Scale Vision Space State Blocks (MS-VSSB) extracts multi-scale appearance features, and the temporal encoder employs Channel-Aware Vision Space State Blocks (CA-VSSB) to capture significant motion patterns. Secondly, a Spatial-Temporal Interaction Module (STIM) is introduced to integrate spatial and temporal information across multiple levels, enabling effective modeling of intrinsic spatial-temporal consistency. Within this module, the Spatial-Temporal Fusion Block (STFB) is proposed to fuse the spatial and temporal features into a unified feature space, and the memory bank is utilized to store spatial-temporal prototypes of normal patterns, restricting the model's ability to represent anomalies. Extensive experiments on three benchmark datasets demonstrate that our STNMamba achieves competitive performance with fewer parameters and lower computational costs than existing methods.
Abstract（参考訳）: ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。しかし、CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負担に悩まされており、空間的時間的正規性を学習する余地がある。最近、Mambaは線形複雑性を伴う長距離依存をモデル化する大きな可能性を示しており、上記のジレンマに対する効果的な解決策を提供している。そこで我々は,空間的時間的正規性の学習を促進するために,慎重に設計されたマンバモジュールを組み込んだ,軽量で効果的なマンバベースネットワークSTNMambaを提案する。まず,マルチスケール・ビジョン・スペース・ステート・ブロック(MS-VSSB)を備えた空間エンコーダを用いてマルチスケール・ビジョン・スペース・ステート・ブロック(MS-VSSB)を抽出し,時間エンコーダはチャネル・アウェア・スペース・ステート・ブロック(CA-VSSB)を用いて重要な動きパターンを捉える。第2に、空間的時間的相互作用モジュール(STIM)を導入し、複数のレベルにわたる空間的情報と時間的情報を統合し、本質的な空間的時間的一貫性の効果的なモデリングを可能にする。このモジュール内では、空間的・時間的特徴を統一的な特徴空間に融合させるため、空間的・時間的融合ブロック(STFB)が提案され、メモリバンクは通常のパターンの時空間的プロトタイプを格納するために利用され、モデルが異常を表現できる能力を制限する。 3つのベンチマークデータセットに対する大規模な実験により、我々のSTNMambaは既存の手法よりも少ないパラメータと少ない計算コストで競合性能を達成することを示した。

関連論文リスト

Mamba-based Efficient Spatio-Frequency Motion Perception for Video Camouflaged Object Detection [15.982078102328233]
既存の物体カモフラージュ法(VCOD)は、主に外見に頼り、破壊する動きの手がかりを知覚する。近年の研究では、周波数特性が特徴表現を強化し、出現制限を補うだけでなく、周波数エネルギーの変動を通じて運動を知覚できることが示されている。そこで本研究では,オン周波数動作知覚に基づく新しい視覚カモフラージュ・マンバ(Vcamba)を提案する。
論文参考訳（メタデータ） (2025-07-31T14:40:37Z)
MVNet: Hyperspectral Remote Sensing Image Classification Based on Hybrid Mamba-Transformer Vision Backbone Architecture [12.168520751389622]
ハイパースペクトル画像(HSI)分類は、高次元データ、限られたトレーニングサンプル、スペクトル冗長性といった課題に直面している。本稿では,3D-CNNの局所特徴抽出,Transformerのグローバルモデリング,Mambaの線形シーケンスモデリング機能を統合した新しいMVNetネットワークアーキテクチャを提案する。 IN、UP、KSCデータセットでは、MVNetは分類精度と計算効率の両方で主流のハイパースペクトル画像分類法より優れている。
論文参考訳（メタデータ） (2025-07-06T14:52:26Z)
Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文参考訳（メタデータ） (2024-11-23T06:36:16Z)
Spatial-Mamba: Effective Visual State Space Models via Structure-aware State Fusion [46.82975707531064]
SSM(Selective State Space Model)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに優れる。本研究では,地域間直接接続を実現する新しいアプローチであるSpatial-Mambaを提案する。画像分類,検出,セグメンテーションにおいて,空間マンバは,単一のスキャンであっても,最先端のSSMベースのモデルを達成したり,超えたりしていることを示す。
論文参考訳（メタデータ） (2024-10-19T12:56:58Z)
CollaMamba: Efficient Collaborative Perception with Cross-Agent Spatial-Temporal State Space Model [12.461378793357705]
マルチエージェント協調認識は環境のより深い理解を促進する。協調知覚の最近の研究は、主にCNNやトランスフォーマーを用いて空間次元における特徴表現と融合を学習している。資源効率の良い時間空間協調状態空間モデルCollaMambaを提案する。
論文参考訳（メタデータ） (2024-09-12T02:50:04Z)
DemMamba: Alignment-free Raw Video Demoireing with Frequency-assisted Spatio-Temporal Mamba [18.06907326360215]
2つの同様の反復パターンの干渉によるモアレパターンは、画面上の画像やビデオのキャプチャ中に頻繁に観察される。本稿では,周波数アシスト型マンバを用いたアライメントレス生ビデオ復調ネットワークを提案する。提案するDemMambaはPSNRで1.3dBの最先端手法を超越し,良好な視覚体験を提供する。
論文参考訳（メタデータ） (2024-08-20T09:31:03Z)
MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-08-15T02:29:00Z)
PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文参考訳（メタデータ） (2024-08-07T04:38:03Z)
Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文参考訳（メタデータ） (2024-08-01T15:14:10Z)
RSCaMa: Remote Sensing Image Change Captioning with State Space Model [29.945966783242337]
リモートセンシング画像変化キャプション(RSICC)は、言語における多時間リモートセンシング画像間の表面的変化を記述することを目的としている。これは、時間的特徴の空間的および時間的モデリングに挑戦する。本稿では,複数のCaMa層を通した空間空間空間モデリングを効率的に行う新しいRSCaMaモデルを提案する。
論文参考訳（メタデータ） (2024-04-29T17:31:00Z)
S$^2$Mamba: A Spatial-spectral State Space Model for Hyperspectral Image Classification [44.99672241508994]
ハイパースペクトル画像(HSI)を用いた土地被覆解析は、空間分解能の低さと複雑なスペクトル情報のため、未解決の課題である。ハイパースペクトル画像分類のための空間スペクトル状態空間モデルであるS$2$Mambaを提案する。
論文参考訳（メタデータ） (2024-04-28T15:12:56Z)
MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection [53.03687787922032]
長距離モデリングと線形効率の優れたマンバモデルが注目されている。 MambaADは、事前訓練されたエンコーダと(Locality-Enhanced State Space)LSSモジュールをマルチスケールで備えたMambaデコーダで構成されている。提案したLSSモジュールは、並列カスケード(Hybrid State Space) HSSブロックとマルチカーネル畳み込み操作を統合し、長距離情報とローカル情報の両方を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-04-09T18:28:55Z)
Disentangling Spatial and Temporal Learning for Efficient Image-to-Video Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。 DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。 5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文参考訳（メタデータ） (2023-09-14T17:58:33Z)
Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。 ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文参考訳（メタデータ） (2021-09-04T13:05:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。