論文の概要: Lightning Fast Video Anomaly Detection via Adversarial Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2211.15597v2
- Date: Wed, 10 Jul 2024 16:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 22:39:20.985827
- Title: Lightning Fast Video Anomaly Detection via Adversarial Knowledge Distillation
- Title(参考訳): 逆知識蒸留による高速ビデオ異常検出
- Authors: Florinel-Alin Croitoru, Nicolae-Catalin Ristea, Dana Dascalescu, Radu Tudor Ionescu, Fahad Shahbaz Khan, Mubarak Shah,
- Abstract要約: 本稿では,ビデオ中の異常検出のための非常に高速なフレームレベルモデルを提案する。
複数の高精度なオブジェクトレベルの教師モデルから知識を抽出することで、異常を検出することを学ぶ。
提案モデルでは,これまで聞こえなかった1480 FPSの速度のため,速度と精度の最良のトレードオフを実現している。
- 参考スコア(独自算出の注目度): 106.42167050921718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a very fast frame-level model for anomaly detection in video, which learns to detect anomalies by distilling knowledge from multiple highly accurate object-level teacher models. To improve the fidelity of our student, we distill the low-resolution anomaly maps of the teachers by jointly applying standard and adversarial distillation, introducing an adversarial discriminator for each teacher to distinguish between target and generated anomaly maps. We conduct experiments on three benchmarks (Avenue, ShanghaiTech, UCSD Ped2), showing that our method is over 7 times faster than the fastest competing method, and between 28 and 62 times faster than object-centric models, while obtaining comparable results to recent methods. Our evaluation also indicates that our model achieves the best trade-off between speed and accuracy, due to its previously unheard-of speed of 1480 FPS. In addition, we carry out a comprehensive ablation study to justify our architectural design choices. Our code is freely available at: https://github.com/ristea/fast-aed.
- Abstract(参考訳): 本稿では,複数の高精度な対象レベルの教師モデルから知識を抽出し,異常検出を学習する,ビデオ中の異常検出のための非常に高速なフレームレベルモデルを提案する。
学生の忠実度を向上させるために,教師の低分解能な異常マップを,標準と対角蒸留を併用して蒸留し,各教師に対して,目標と生成した異常マップを区別する対角ディミネータを導入する。
我々は3つのベンチマーク(Avenue, ShanghaiTech, UCSD Ped2)で実験を行い、我々の手法は最も高速な競合する手法の7倍以上高速で、オブジェクト中心のモデルよりも28~62倍高速であり、最近の手法に匹敵する結果が得られることを示した。
また,従来の1480FPSの低速化により,速度と精度のトレードオフが最良であることを示す。
さらに、アーキテクチャ設計の選択を正当化するための包括的なアブレーション研究を実施します。
私たちのコードは、https://github.com/ristea/fast-aed.comで無料で利用可能です。
関連論文リスト
- Distill-then-prune: An Efficient Compression Framework for Real-time Stereo Matching Network on Edge Devices [5.696239274365031]
本稿では, 知識蒸留とモデルプルーニングを取り入れて, 速度と精度のトレードオフを克服し, 新たな戦略を提案する。
エッジデバイスに高い精度を提供しながら、リアルタイム性能を維持するモデルを得た。
論文 参考訳(メタデータ) (2024-05-20T06:03:55Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Anomaly Detection via Multi-Scale Contrasted Memory [3.0170109896527086]
マルチスケールの標準プロトタイプをトレーニング中に記憶し,異常偏差値を計算する2段階の異常検出器を新たに導入する。
CIFAR-10の誤差相対改善率を最大35%とすることにより,多種多様なオブジェクト,スタイル,局所異常に対する最先端性能を高い精度で向上させる。
論文 参考訳(メタデータ) (2022-11-16T16:58:04Z) - Descriptor Distillation: a Teacher-Student-Regularized Framework for
Learning Local Descriptors [17.386735294534738]
本稿では,DesDis と呼ばれるローカルな記述子学習のための記述子蒸留フレームワークを提案する。
学生モデルは、事前訓練された教師モデルから知識を得、設計された教師-学生正規化器によってさらに強化される。
3つの公開データセットによる実験結果から、同級生モデルが教師よりもはるかに優れたパフォーマンスを達成できることが示された。
論文 参考訳(メタデータ) (2022-09-23T18:22:04Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-02-09T19:49:33Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。