論文の概要: M2S2L: Mamba-based Multi-Scale Spatial-temporal Learning for Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2511.05564v1
- Date: Tue, 04 Nov 2025 04:00:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.446619
- Title: M2S2L: Mamba-based Multi-Scale Spatial-temporal Learning for Video Anomaly Detection
- Title(参考訳): M2S2L:ビデオ異常検出のためのマルチスケール時空間学習
- Authors: Yang Liu, Boan Chen, Xiaoguang Zhu, Jing Liu, Peng Sun, Wei Zhou,
- Abstract要約: ビデオ異常検出(VAD)は,映像監視に期待する画像処理コミュニティにおいて重要な課題である。
従来のVADアプローチは、現代の監視システムに対して堅牢な評価を提供するのに苦労している。
本稿では,マンバをベースとしたマルチスケール空間時間学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.108479842983822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly detection (VAD) is an essential task in the image processing community with prospects in video surveillance, which faces fundamental challenges in balancing detection accuracy with computational efficiency. As video content becomes increasingly complex with diverse behavioral patterns and contextual scenarios, traditional VAD approaches struggle to provide robust assessment for modern surveillance systems. Existing methods either lack comprehensive spatial-temporal modeling or require excessive computational resources for real-time applications. In this regard, we present a Mamba-based multi-scale spatial-temporal learning (M2S2L) framework in this paper. The proposed method employs hierarchical spatial encoders operating at multiple granularities and multi-temporal encoders capturing motion dynamics across different time scales. We also introduce a feature decomposition mechanism to enable task-specific optimization for appearance and motion reconstruction, facilitating more nuanced behavioral modeling and quality-aware anomaly assessment. Experiments on three benchmark datasets demonstrate that M2S2L framework achieves 98.5%, 92.1%, and 77.9% frame-level AUCs on UCSD Ped2, CUHK Avenue, and ShanghaiTech respectively, while maintaining efficiency with 20.1G FLOPs and 45 FPS inference speed, making it suitable for practical surveillance deployment.
- Abstract(参考訳): ビデオ異常検出(VAD)は画像処理コミュニティにおいて重要な課題であり、検出精度と計算効率のバランスをとるための根本的な課題に直面している。
ビデオコンテンツが多様な行動パターンやコンテキストシナリオと複雑化するにつれ、従来のVADアプローチは、現代の監視システムに対して堅牢な評価を提供するのに苦労する。
既存の手法は、包括的な時空間モデリングを欠いているか、リアルタイムアプリケーションに過剰な計算資源を必要とするかのいずれかである。
本稿では,マンバをベースとしたマルチスケール時空間学習(M2S2L)フレームワークを提案する。
提案手法では、複数の粒度で動作する階層型空間エンコーダと、異なる時間スケールで動きのダイナミクスをキャプチャするマルチ時間エンコーダを用いる。
また,外見や動きの再現にタスク固有の最適化を可能にする機能分解機構を導入し,よりニュアンスな行動モデリングと品質認識異常評価を容易にする。
3つのベンチマークデータセットの実験では、M2S2Lフレームワークは、UCSD Ped2、CUHK Avenue、ShanghaiTechでそれぞれ98.5%、92.1%、77.9%のフレームレベルのAUCを達成し、20.1GのFLOPと45FPSの推論速度で効率を保ち、実際の監視展開に適していることが示された。
関連論文リスト
- MIORe & VAR-MIORe: Benchmarks to Push the Boundaries of Restoration [53.180212987726556]
動作回復ベンチマークの限界に対処する2つの新しいマルチタスクデータセットであるMIOReとVAR-MIOReを紹介する。
私たちのデータセットは、複雑なエゴカメラの動き、動的マルチオブジェクト相互作用、深さ依存のぼかし効果など、幅広い動きシナリオを捉えています。
論文 参考訳(メタデータ) (2025-09-08T15:34:31Z) - Trajectory-aware Shifted State Space Models for Online Video Super-Resolution [57.87099307245989]
本稿では、トラジェクトリ対応シフトSSM(TS-Mamba)に基づく新しいオンラインVSR手法を提案する。
TS-Mambaは、最初にビデオ内の軌跡を構築し、以前のフレームから最もよく似たトークンを選択する。
私たちのTS-Mambaは、ほとんどのケースで最先端のパフォーマンスを実現し、22.7%以上の削減複雑性(MAC)を実現しています。
論文 参考訳(メタデータ) (2025-08-14T08:42:15Z) - Efficient Spatial-Temporal Modeling for Real-Time Video Analysis: A Unified Framework for Action Recognition and Object Tracking [0.0]
リアルタイムビデオ分析はコンピュータビジョンにおいて依然として難しい問題である。
本稿では,行動認識と物体追跡を同時に行うために,高度な時空間モデリング技術を活用する統合フレームワークを提案する。
提案手法は,リアルタイムの推論速度を維持しながら,標準ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T06:49:11Z) - S3MOT: Monocular 3D Object Tracking with Selective State Space Model [3.5047603107971397]
3次元空間における多物体追跡は、ロボット工学とコンピュータ応用の進歩に不可欠である。
2Dビデオストリームからの3Dアソシエーションのマイニングが難しいため、モノラルなセットアップでは依然として大きな課題である。
モノクローナル3次元MOTのための不均一なキューの融合を促進するための3つの革新的な技術を提案する。
論文 参考訳(メタデータ) (2025-04-25T04:45:35Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Revisiting Learning-based Video Motion Magnification for Real-time
Processing [23.148430647367224]
動画の動きを拡大する技術は、裸眼で見えないビデオの中で微妙な動きを捉え、増幅する技術である。
FLOPを4.2倍小さくし,従来よりも2.7倍高速なリアルタイム深層学習に基づく動き倍率モデルを提案する。
論文 参考訳(メタデータ) (2024-03-04T09:57:08Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - MotionHint: Self-Supervised Monocular Visual Odometry with Motion
Constraints [70.76761166614511]
モノクローナルビジュアル・オドメトリー(VO)のための新しい自己教師型アルゴリズムMotionHintを提案する。
我々のMotionHintアルゴリズムは、既存のオープンソースSSM-VOシステムに容易に適用できる。
論文 参考訳(メタデータ) (2021-09-14T15:35:08Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。