論文の概要: Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors
- arxiv url: http://arxiv.org/abs/2306.12041v1
- Date: Wed, 21 Jun 2023 06:18:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 14:47:42.065099
- Title: Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors
- Title(参考訳): 自己蒸留マスク式オートエンコーダは効率的なビデオ異常検出装置である
- Authors: Nicolae-Catalin Ristea, Florinel-Alin Croitoru, Radu Tudor Ionescu,
Marius Popescu, Fahad Shahbaz Khan, Mubarak Shah
- Abstract要約: ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動作勾配に基づく重み付きトークンへのアプローチを導入し,静的な背景環境の再構築の学習を回避した。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
- 参考スコア(独自算出の注目度): 113.13012932682761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an efficient abnormal event detection model based on a lightweight
masked auto-encoder (AE) applied at the video frame level. The novelty of the
proposed model is threefold. First, we introduce an approach to weight tokens
based on motion gradients, thus avoiding learning to reconstruct the static
background scene. Second, we integrate a teacher decoder and a student decoder
into our architecture, leveraging the discrepancy between the outputs given by
the two decoders to improve anomaly detection. Third, we generate synthetic
abnormal events to augment the training videos, and task the masked AE model to
jointly reconstruct the original frames (without anomalies) and the
corresponding pixel-level anomaly maps. Our design leads to an efficient and
effective model, as demonstrated by the extensive experiments carried out on
three benchmarks: Avenue, ShanghaiTech and UCSD Ped2. The empirical results
show that our model achieves an excellent trade-off between speed and accuracy,
obtaining competitive AUC scores, while processing 1670 FPS. Hence, our model
is between 8 and 70 times faster than competing methods. We also conduct an
ablation study to justify our design.
- Abstract(参考訳): ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
提案モデルの新規性は3倍である。
まず,動き勾配に基づく重み付きトークンへのアプローチを導入することにより,静的背景のシーンを再現する学習を回避できる。
第2に,教師用デコーダと学生用デコーダをアーキテクチャに統合し,2つのデコーダの出力間の不一致を利用して異常検出を改善した。
第3に,トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いて原フレームと対応する画素レベルの異常マップを共同で再構築する。
われわれの設計は,3つのベンチマーク( Avenue, ShanghaiTech, UCSD Ped2)で行った大規模な実験で実証された,効率的かつ効果的なモデルに導かれる。
実験結果から,本モデルは速度と精度の優れたトレードオフを実現し,競争力のあるAUCスコアを得た。
したがって、我々のモデルは競合する手法の8倍から70倍高速である。
デザインを正当化するためのアブレーション研究も行います。
関連論文リスト
- 4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。
4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。
さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。
本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。
自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-06T14:44:34Z) - Multi-level Memory-augmented Appearance-Motion Correspondence Framework
for Video Anomaly Detection [1.9511777443446219]
マルチレベルメモリ拡張外見対応フレームワークを提案する。
外観と動きの潜在的対応は、外見と動きのセマンティックスアライメントとセマンティックス代替トレーニングによって探索される。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2、CUHK Avenue、ShanghaiTechのデータセットで99.6%、93.8%、76.3%のAUCを達成した。
論文 参考訳(メタデータ) (2023-03-09T08:43:06Z) - Lightning Fast Video Anomaly Detection via Adversarial Knowledge Distillation [106.42167050921718]
本稿では,ビデオ中の異常検出のための非常に高速なフレームレベルモデルを提案する。
複数の高精度なオブジェクトレベルの教師モデルから知識を抽出することで、異常を検出することを学ぶ。
提案モデルでは,これまで聞こえなかった1480 FPSの速度のため,速度と精度の最良のトレードオフを実現している。
論文 参考訳(メタデータ) (2022-11-28T17:50:19Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-02-09T19:49:33Z) - Encoding Syntactic Knowledge in Transformer Encoder for Intent Detection
and Slot Filling [6.234581622120001]
本稿では,インテント検出とスロットフィリングのための構文知識を符号化したトランスフォーマーエンコーダアーキテクチャを提案する。
シンタクティックな知識をトランスフォーマーエンコーダにエンコードし、マルチタスク学習を通じて各トークンの構文的パース祖先と部分音声を予測する。
論文 参考訳(メタデータ) (2020-12-21T21:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。