論文の概要: VADMamba: Exploring State Space Models for Fast Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2503.21169v1
- Date: Thu, 27 Mar 2025 05:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:44.659574
- Title: VADMamba: Exploring State Space Models for Fast Video Anomaly Detection
- Title(参考訳): VADMamba: 高速ビデオ異常検出のための状態空間モデル
- Authors: Jiahao Lyu, Minghua Zhao, Jing Hu, Xuewen Huang, Yifei Chen, Shuangli Du,
- Abstract要約: VQ-Mamba Unet(VQ-MaU)フレームワークには、Vector Quantization(VQ)層と、Mambaベースの非負のVisual State Space(NVSS)ブロックが組み込まれている。
提案するVADMambaの有効性を3つのベンチマークデータセットで検証した。
- 参考スコア(独自算出の注目度): 4.874215132369157
- License:
- Abstract: Video anomaly detection (VAD) methods are mostly CNN-based or Transformer-based, achieving impressive results, but the focus on detection accuracy often comes at the expense of inference speed. The emergence of state space models in computer vision, exemplified by the Mamba model, demonstrates improved computational efficiency through selective scans and showcases the great potential for long-range modeling. Our study pioneers the application of Mamba to VAD, dubbed VADMamba, which is based on multi-task learning for frame prediction and optical flow reconstruction. Specifically, we propose the VQ-Mamba Unet (VQ-MaU) framework, which incorporates a Vector Quantization (VQ) layer and Mamba-based Non-negative Visual State Space (NVSS) block. Furthermore, two individual VQ-MaU networks separately predict frames and reconstruct corresponding optical flows, further boosting accuracy through a clip-level fusion evaluation strategy. Experimental results validate the efficacy of the proposed VADMamba across three benchmark datasets, demonstrating superior performance in inference speed compared to previous work. Code is available at https://github.com/jLooo/VADMamba.
- Abstract(参考訳): ビデオ異常検出法(VAD)は主にCNNベースまたはTransformerベースで、素晴らしい結果が得られたが、検出精度の重視は推論速度の犠牲になることが多い。
コンピュータビジョンにおける状態空間モデルの出現は、マンバモデルによって実証され、選択的スキャンによる計算効率の向上を示し、長距離モデリングの大きな可能性を示している。
本研究は,フレーム予測と光フロー再構成のためのマルチタスク学習に基づくVADMambaというVADへのMambaの適用を先導する。
具体的には、ベクトル量子化(VQ)層と、マンバをベースとした非負のビジュアル状態空間(NVSS)ブロックを組み込んだVQ-Mamba Unet(VQ-MaU)フレームワークを提案する。
さらに、2つの個別VQ-MaUネットワークがフレームを別々に予測し、対応する光フローを再構成し、クリップレベルの融合評価戦略により精度をさらに向上させる。
提案したVADMアンバの有効性を3つのベンチマークデータセットで検証し,従来よりも推論速度に優れた性能を示した。
コードはhttps://github.com/jLooo/VADMamba.comで入手できる。
関連論文リスト
- A Separable Self-attention Inspired by the State Space Model for Computer Vision [9.958579689420253]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
近年の研究では、状態空間モデルとアテンション変種の間には、豊富な理論的な関係があることが示されている。
本稿では,マンバの優れた設計概念を分離可能な自己注意に導入した新しい自己注意法を提案する。
論文 参考訳(メタデータ) (2025-01-03T15:23:36Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - Vision Mamba Distillation for Low-resolution Fine-grained Image Classification [11.636461046632183]
低解像度きめ細かい画像分類の有効性と効率を高めるために,Vision Mamba Distillation (ViMD) アプローチを提案する。
ViMDは、より少ないパラメータとFLOPで類似した手法より優れており、組み込みデバイスアプリケーションに適している。
論文 参考訳(メタデータ) (2024-11-27T01:29:44Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Mamba-Spike: Enhancing the Mamba Architecture with a Spiking Front-End for Efficient Temporal Data Processing [4.673285689826945]
Mamba-Spikeは、スパイクするフロントエンドとMambaのバックボーンを統合して、効率的な時間的データ処理を実現する新しいニューロモルフィックアーキテクチャである。
このアーキテクチャは、最先端のベースラインを一貫して上回り、高い精度、低いレイテンシ、エネルギー効率の向上を実現している。
論文 参考訳(メタデータ) (2024-08-04T14:10:33Z) - KFD-NeRF: Rethinking Dynamic NeRF with Kalman Filter [49.85369344101118]
KFD-NeRFは,Kalmanフィルタに基づく効率的かつ高品質な運動再構成フレームワークと統合された,新しい動的ニューラル放射場である。
我々のキーとなる考え方は、動的放射場を、観測と予測という2つの知識源に基づいて時間的に異なる状態が推定される動的システムとしてモデル化することである。
我々のKFD-NeRFは、同等の計算時間と最先端の視線合成性能で、徹底的な訓練を施した類似または優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-18T05:48:24Z) - Vision Mamba for Classification of Breast Ultrasound Images [9.90112908284836]
MambaベースのモデルであるVMambaとVimは、最近のビジョンエンコーダのファミリーであり、多くのコンピュータビジョンタスクで有望なパフォーマンス改善を提供する。
本稿では,乳房超音波BUSIデータセットと乳房超音波Bデータセットを用いて,マンバモデルと従来の畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を比較した。
論文 参考訳(メタデータ) (2024-07-04T00:21:47Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。