論文の概要: Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors
- arxiv url: http://arxiv.org/abs/2306.12041v2
- Date: Sat, 9 Mar 2024 20:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 17:09:33.346123
- Title: Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors
- Title(参考訳): 自己蒸留マスク式オートエンコーダは効率的なビデオ異常検出装置である
- Authors: Nicolae-Catalin Ristea, Florinel-Alin Croitoru, Radu Tudor Ionescu,
Marius Popescu, Fahad Shahbaz Khan, Mubarak Shah
- Abstract要約: ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
- 参考スコア(独自算出の注目度): 117.61449210940955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an efficient abnormal event detection model based on a lightweight
masked auto-encoder (AE) applied at the video frame level. The novelty of the
proposed model is threefold. First, we introduce an approach to weight tokens
based on motion gradients, thus shifting the focus from the static background
scene to the foreground objects. Second, we integrate a teacher decoder and a
student decoder into our architecture, leveraging the discrepancy between the
outputs given by the two decoders to improve anomaly detection. Third, we
generate synthetic abnormal events to augment the training videos, and task the
masked AE model to jointly reconstruct the original frames (without anomalies)
and the corresponding pixel-level anomaly maps. Our design leads to an
efficient and effective model, as demonstrated by the extensive experiments
carried out on four benchmarks: Avenue, ShanghaiTech, UBnormal and UCSD Ped2.
The empirical results show that our model achieves an excellent trade-off
between speed and accuracy, obtaining competitive AUC scores, while processing
1655 FPS. Hence, our model is between 8 and 70 times faster than competing
methods. We also conduct an ablation study to justify our design. Our code is
freely available at: https://github.com/ristea/aed-mae.
- Abstract(参考訳): ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
提案モデルの新規性は3倍である。
まず,動き勾配に基づくウェイトトークンのアプローチを導入することで,フォーカスを静的背景シーンからフォアグラウンドオブジェクトにシフトさせる。
第2に,教師用デコーダと学生用デコーダをアーキテクチャに統合し,2つのデコーダの出力間の不一致を利用して異常検出を改善した。
第3に,トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いて原フレームと対応する画素レベルの異常マップを共同で再構築する。
提案手法は,街路,上海技術,UBnormal,UCSD Ped2の4つのベンチマークで実施した大規模な実験によって実証された。
実験の結果,1655 FPSを処理しながら,速度と精度の優れたトレードオフを実現し,競合するAUCスコアを得ることができた。
したがって、我々のモデルは競合する手法の8倍から70倍高速である。
デザインを正当化するためのアブレーション研究も行います。
私たちのコードは、https://github.com/ristea/aed-mae.comで無料で利用可能です。
関連論文リスト
- 4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。
4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。
さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。
本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。
自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-06T14:44:34Z) - Multi-level Memory-augmented Appearance-Motion Correspondence Framework
for Video Anomaly Detection [1.9511777443446219]
マルチレベルメモリ拡張外見対応フレームワークを提案する。
外観と動きの潜在的対応は、外見と動きのセマンティックスアライメントとセマンティックス代替トレーニングによって探索される。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2、CUHK Avenue、ShanghaiTechのデータセットで99.6%、93.8%、76.3%のAUCを達成した。
論文 参考訳(メタデータ) (2023-03-09T08:43:06Z) - Lightning Fast Video Anomaly Detection via Adversarial Knowledge Distillation [106.42167050921718]
本稿では,ビデオ中の異常検出のための非常に高速なフレームレベルモデルを提案する。
複数の高精度なオブジェクトレベルの教師モデルから知識を抽出することで、異常を検出することを学ぶ。
提案モデルでは,これまで聞こえなかった1480 FPSの速度のため,速度と精度の最良のトレードオフを実現している。
論文 参考訳(メタデータ) (2022-11-28T17:50:19Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-02-09T19:49:33Z) - Encoding Syntactic Knowledge in Transformer Encoder for Intent Detection
and Slot Filling [6.234581622120001]
本稿では,インテント検出とスロットフィリングのための構文知識を符号化したトランスフォーマーエンコーダアーキテクチャを提案する。
シンタクティックな知識をトランスフォーマーエンコーダにエンコードし、マルチタスク学習を通じて各トークンの構文的パース祖先と部分音声を予測する。
論文 参考訳(メタデータ) (2020-12-21T21:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。