論文の概要: Injecting Explainability and Lightweight Design into Weakly Supervised Video Anomaly Detection Systems
- arxiv url: http://arxiv.org/abs/2412.20201v1
- Date: Sat, 28 Dec 2024 16:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:12.016395
- Title: Injecting Explainability and Lightweight Design into Weakly Supervised Video Anomaly Detection Systems
- Title(参考訳): 弱監視ビデオ異常検出システムに説明可能性と軽量化を注入する
- Authors: Wen-Dong Jiang, Chih-Yung Chang, Hsiang-Chuan Chang, Ji-Yuan Chen, Diptendu Sinha Roy,
- Abstract要約: 本稿では,知識蒸留とクロスモーダルコントラスト学習を活用したTCVADS(Two-stage Cross-modal Video Anomaly Detection System)を提案する。
実験結果から,TCVADSはモデル性能,検出効率,解釈可能性において既存手法よりも優れていた。
- 参考スコア(独自算出の注目度): 2.0179223501624786
- License:
- Abstract: Weakly Supervised Monitoring Anomaly Detection (WSMAD) utilizes weak supervision learning to identify anomalies, a critical task for smart city monitoring. However, existing multimodal approaches often fail to meet the real-time and interpretability requirements of edge devices due to their complexity. This paper presents TCVADS (Two-stage Cross-modal Video Anomaly Detection System), which leverages knowledge distillation and cross-modal contrastive learning to enable efficient, accurate, and interpretable anomaly detection on edge devices.TCVADS operates in two stages: coarse-grained rapid classification and fine-grained detailed analysis. In the first stage, TCVADS extracts features from video frames and inputs them into a time series analysis module, which acts as the teacher model. Insights are then transferred via knowledge distillation to a simplified convolutional network (student model) for binary classification. Upon detecting an anomaly, the second stage is triggered, employing a fine-grained multi-class classification model. This stage uses CLIP for cross-modal contrastive learning with text and images, enhancing interpretability and achieving refined classification through specially designed triplet textual relationships. Experimental results demonstrate that TCVADS significantly outperforms existing methods in model performance, detection efficiency, and interpretability, offering valuable contributions to smart city monitoring applications.
- Abstract(参考訳): Wakly Supervised Monitoring Anomaly Detection (WSMAD) は、弱い監視学習を利用して異常を識別する。
しかし、既存のマルチモーダルアプローチは、その複雑さのため、エッジデバイスのリアルタイムおよび解釈可能性要件を満たすことができないことが多い。
本稿では,知識蒸留とクロスモーダルコントラスト学習を活用して,エッジデバイス上での効率,正確,解釈可能な異常検出を実現するTCVADSについて述べる。
第1段階では、TCVADSはビデオフレームから特徴を抽出し、教師モデルとして機能する時系列解析モジュールに入力する。
インサイトは知識蒸留を通じて、バイナリ分類のための単純化された畳み込みネットワーク(学生モデル)に転送される。
異常を検出すると、第2段階がトリガーされ、きめ細かいマルチクラス分類モデルが使用される。
このステージでは、CLIPを用いてテキストと画像の相互比較学習を行い、解釈可能性を高め、特別に設計された三重テキスト関係を通じて洗練された分類を実現する。
実験結果から,TCVADSはモデル性能,検出効率,解釈可能性において既存手法を著しく上回り,スマートシティモニタリングアプリケーションに多大な貢献をすることが示された。
関連論文リスト
- Distilling Aggregated Knowledge for Weakly-Supervised Video Anomaly Detection [11.250490586786878]
ビデオ異常検出は、監視ビデオにおける異常事象を識別できる自動モデルを開発することを目的としている。
複数のバックボーンの集約表現から1つのバックボーンモデルへの知識の蒸留が,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-06-05T00:44:42Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - CL-Flow:Strengthening the Normalizing Flows by Contrastive Learning for
Better Anomaly Detection [1.951082473090397]
コントラスト学習と2D-Flowを組み合わせた自己教師付き異常検出手法を提案する。
本手法は,主流の教師なし手法と比較して,検出精度が向上し,モデルパラメータが減少し,推論速度が向上することを示す。
BTADデータセットでは,MVTecADデータセットでは画像レベルのAUROCが99.6%,BTADデータセットでは画像レベルのAUROCが96.8%であった。
論文 参考訳(メタデータ) (2023-11-12T10:07:03Z) - Prior Knowledge Guided Network for Video Anomaly Detection [1.389970629097429]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を検出する。
VADタスクのための事前知識誘導ネットワーク(PKG-Net)を提案する。
論文 参考訳(メタデータ) (2023-09-04T15:57:07Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Anomaly Detection in Cybersecurity: Unsupervised, Graph-Based and
Supervised Learning Methods in Adversarial Environments [63.942632088208505]
現在の運用環境に固有ののは、敵対的機械学習の実践である。
本研究では,教師なし学習とグラフに基づく異常検出の可能性を検討する。
我々は,教師付きモデルの訓練時に,現実的な対人訓練機構を組み込んで,対人環境における強力な分類性能を実現する。
論文 参考訳(メタデータ) (2021-05-14T10:05:10Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。