論文の概要: From Frames to Events: Rethinking Evaluation in Human-Centric Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2604.09327v1
- Date: Fri, 10 Apr 2026 13:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.891782
- Title: From Frames to Events: Rethinking Evaluation in Human-Centric Video Anomaly Detection
- Title(参考訳): フレームからイベントへ:人間中心のビデオ異常検出における評価の再考
- Authors: Narges Rashvand, Shanle Yao, Armin Danesh Pazho, Babak Rahimi Ardabili, Hamed Tabkhi,
- Abstract要約: ポースベースのビデオ異常検出(VAD)は、プライバシー保護の性質と環境変動に対する堅牢性において大きな注目を集めている。
従来のフレームレベルの評価では、ビデオは孤立したフレームの集合として扱われ、現実の世界で異常がどのように現れ、行動するかを根本的に誤解している。
本稿では,階層的なガウススムースメントと適応二項化を備えたスコアリファインメントパイプラインと,イベントレベルの検出を直接生成するエンドツーエンドのデュアルブランチモデルという,時間的イベントローカライゼーションのための2つの戦略を紹介する。
- 参考スコア(独自算出の注目度): 9.404376027901277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pose-based Video Anomaly Detection (VAD) has gained significant attention for its privacy-preserving nature and robustness to environmental variations. However, traditional frame-level evaluations treat video as a collection of isolated frames, fundamentally misaligned with how anomalies manifest and are acted upon in the real world. In operational surveillance systems, what matters is not the flagging of individual frames, but the reliable detection, localization, and reporting of a coherent anomalous event, a contiguous temporal episode with an identifiable onset and duration. Frame-level metrics are blind to this distinction, and as a result, they systematically overestimate model performance for any deployment that requires actionable, event-level alerts. In this work, we propose a shift toward an event-centric perspective in VAD. We first audit widely used VAD benchmarks, including SHT[19], CHAD[6], NWPUC[4], and HuVAD[25], to characterize their event structure. We then introduce two strategies for temporal event localization: a score-refinement pipeline with hierarchical Gaussian smoothing and adaptive binarization, and an end-to-end Dual-Branch Model that directly generates event-level detections. Finally, we establish the first event-based evaluation standard for VAD by adapting Temporal Action Localization metrics, including tIoU-based event matching and multi-threshold F1 evaluation. Our results quantify a substantial performance gap: while all SoTA models achieve frame-level AUC-ROC exceeding 52% on the NWPUC[4], their event-level localization precision falls below 10% even at a minimal tIoU=0.2, with an average event-level F1 of only 0.11 across all thresholds. The code base for this work is available at https://github.com/TeCSAR-UNCC/EventCentric-VAD.
- Abstract(参考訳): ポーズベースのビデオ異常検出(VAD)は、プライバシー保護の性質と環境変動に対する堅牢性において大きな注目を集めている。
しかし、従来のフレームレベルの評価では、映像を孤立したフレームの集合として扱う。
運用監視システムにおいて重要なのは、個々のフレームのフラグ付けではなく、確実な検出、局所化、コヒーレントな異常事象の報告である。
フレームレベルのメトリクスは、この区別に盲目であり、結果として、実行可能なイベントレベルのアラートを必要とするデプロイメントに対して、システマティックにモデルパフォーマンスを過大評価します。
本稿では,VADにおけるイベント中心の視点へのシフトを提案する。
まず、SHT[19]、CHAD[6]、NWPUC[4]、HuVAD[25]などのVADベンチマークを用いて、イベント構造を特徴付ける。
次に、階層的なガウススムースメントと適応二項化を備えたスコアリファインメントパイプラインと、イベントレベルの検出を直接生成するエンドツーエンドのデュアルブランチモデルという、時間的イベントローカライゼーションのための2つの戦略を導入する。
最後に、tIoUベースのイベントマッチングやマルチスレッドF1評価など、時間的アクションローカライゼーションのメトリクスを適用して、VADの最初のイベントベース評価標準を確立する。
その結果, フレームレベルのAUC-ROCがNWPUC[4]で52%を超えるのに対して, イベントレベルのローカライゼーション精度は最小のtIoU=0.2でも10%以下であり, 平均イベントレベルのF1は0.11であることがわかった。
この作業のコードベースはhttps://github.com/TeCSAR-UNCC/EventCentric-VADで公開されている。
関連論文リスト
- Towards Video Anomaly Detection from Event Streams: A Baseline and Benchmark Datasets [71.53287557600177]
イベントベースの異常検出を統一研究の方向性として確立するための第一歩を踏み出す。
まず、同期イベントとRGB記録を特徴とする、ビデオ異常検出のための複数のイベントストリームベースのベンチマークを構築した。
次に,EVent中心のビデオ異常検出フレームワークであるEWADを提案する。
論文 参考訳(メタデータ) (2026-03-26T03:33:33Z) - DUAL-VAD: Dual Benchmarks and Anomaly-Focused Sampling for Video Anomaly Detection [8.294763803639391]
ビデオ異常検出(VAD)は、監視と公衆の安全のために重要である。
既存のベンチマークはフレームレベルかビデオレベルのタスクに限られている。
本研究は、フルビデオカバレッジを維持しながら、異常度セグメントを優先するソフトマックスベースのフレーム割り当て戦略を導入する。
論文 参考訳(メタデータ) (2025-09-15T05:48:22Z) - Evaluation of Stress Detection as Time Series Events -- A Novel Window-Based F1-Metric [3.0936815707071403]
ウェアラブルデバイスによるストレスモニタリングなどのアプリケーションには,時系列評価が不可欠である。
F1のような標準メトリクスは、実世界の不均衡なデータセットでモデルパフォーマンスを誤って表現することが多い。
時間耐性を組み込んだウィンドウベースのF1メトリック(F1$_w$)を導入する。
論文 参考訳(メタデータ) (2025-09-03T11:55:28Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z) - A Background-Agnostic Framework with Adversarial Training for Abnormal
Event Detection in Video [120.18562044084678]
近年,ビデオにおける異常事象検出は複雑なコンピュータビジョンの問題として注目されている。
通常のイベントのみを含むトレーニングビデオから学習するバックグラウンドに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-27T18:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。