論文の概要: Human-Centric Anomaly Detection in Surveillance Videos Using YOLO-World and Spatio-Temporal Deep Learning
- arxiv url: http://arxiv.org/abs/2510.22056v1
- Date: Fri, 24 Oct 2025 22:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.936341
- Title: Human-Centric Anomaly Detection in Surveillance Videos Using YOLO-World and Spatio-Temporal Deep Learning
- Title(参考訳): ヨロワールドと時空間深層学習を用いたサーベイランスビデオにおける人中心異常検出
- Authors: Mohammad Ali Etemadi Naeen, Hoda Mohammadzade, Saeed Bagheri Shouraki,
- Abstract要約: 監視ビデオにおける異常検出は、異常事象の多様性、クラス不均衡、シーン依存の視覚的乱れなどにより、依然として困難な課題である。
マルチクラス異常分類のための時間的モデリングと人間の重み付け前処理を統合した頑健なディープラーニングフレームワークを提案する。
本手法は,3つの独立した試験において平均テスト精度が92.41%であり,クラスごとのF1スコアは0.85以上である。
- 参考スコア(独自算出の注目度): 0.1019561860229868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anomaly detection in surveillance videos remains a challenging task due to the diversity of abnormal events, class imbalance, and scene-dependent visual clutter. To address these issues, we propose a robust deep learning framework that integrates human-centric preprocessing with spatio-temporal modeling for multi-class anomaly classification. Our pipeline begins by applying YOLO-World - an open-vocabulary vision-language detector - to identify human instances in raw video clips, followed by ByteTrack for consistent identity-aware tracking. Background regions outside detected bounding boxes are suppressed via Gaussian blurring, effectively reducing scene-specific distractions and focusing the model on behaviorally relevant foreground content. The refined frames are then processed by an ImageNet-pretrained InceptionV3 network for spatial feature extraction, and temporal dynamics are captured using a bidirectional LSTM (BiLSTM) for sequence-level classification. Evaluated on a five-class subset of the UCF-Crime dataset (Normal, Burglary, Fighting, Arson, Explosion), our method achieves a mean test accuracy of 92.41% across three independent trials, with per-class F1-scores consistently exceeding 0.85. Comprehensive evaluation metrics - including confusion matrices, ROC curves, and macro/weighted averages - demonstrate strong generalization and resilience to class imbalance. The results confirm that foreground-focused preprocessing significantly enhances anomaly discrimination in real-world surveillance scenarios.
- Abstract(参考訳): 監視ビデオにおける異常検出は、異常事象の多様性、クラス不均衡、シーン依存の視覚的乱れなどにより、依然として困難な課題である。
これらの課題に対処するために,多クラス異常分類のための時空間モデルと人間中心の事前処理を統合した頑健なディープラーニングフレームワークを提案する。
私たちのパイプラインは、オープン語彙の視覚言語検出ツールであるYOLO-Worldを使って生のビデオクリップ中の人間のインスタンスを識別し、続いてByteTrackを使って一貫したアイデンティティ認識トラッキングを行います。
検出された境界箱の外側の背景領域はガウスのぼかしによって抑制され、シーン固有の乱れを効果的に低減し、行動に関連のある前景コンテンツにモデルを集中させる。
次に、空間的特徴抽出のためのImageNet-Pretrained InceptionV3ネットワークにより精細化フレームを処理し、シークエンスレベル分類のための双方向LSTM(BiLSTM)を用いて時間的ダイナミクスをキャプチャする。
UCF-Crimeデータセットの5クラスサブセット(Normal, Burglary, Fighting, Arson, Explosion)を用いて評価し,各クラス毎のF1スコアが0.85以上である3つの独立試験において平均テスト精度92.41%を達成した。
混乱行列、ROC曲線、マクロ/重み付き平均を含む総合的な評価指標は、クラス不均衡に対する強力な一般化とレジリエンスを示す。
その結果,フォアグラウンドに着目した事前処理により,現実の監視シナリオにおける異常識別が著しく向上することが確認された。
関連論文リスト
- Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文 参考訳(メタデータ) (2025-07-06T17:01:02Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Distilling Aggregated Knowledge for Weakly-Supervised Video Anomaly Detection [11.250490586786878]
ビデオ異常検出は、監視ビデオにおける異常事象を識別できる自動モデルを開発することを目的としている。
複数のバックボーンの集約表現から1つのバックボーンモデルへの知識の蒸留が,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-06-05T00:44:42Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach [49.995833831087175]
本研究は,画像のマスキング領域にペンキを塗布することにより,汎用的な映像時間PAを生成する手法を提案する。
さらに,OCC設定下での現実世界の異常を検出するための単純な統合フレームワークを提案する。
提案手法は,OCC設定下での既存のPAs生成および再構築手法と同等に動作する。
論文 参考訳(メタデータ) (2023-11-27T13:14:06Z) - Noisy-ArcMix: Additive Noisy Angular Margin Loss Combined With Mixup
Anomalous Sound Detection [5.1308092683559225]
非教師付き異常音検出(ASD)は、正常な操作音の特徴を学習し、その偏差を感知することで、異常音を識別することを目的としている。
近年, 正規データの分類を利用した自己教師型タスクに焦点が当てられ, 高度なモデルでは, 異常データの表現空間の確保が重要であることが示されている。
本研究では,クラス内コンパクト性を確保し,正常試料と異常試料との角度ギャップを増大させる訓練手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:04:36Z) - Locality-aware Attention Network with Discriminative Dynamics Learning
for Weakly Supervised Anomaly Detection [0.8883733362171035]
本稿では,2つの目的関数,すなわち動的ランク付け損失と動的アライメント損失の識別的ダイナミクス学習(DDL)手法を提案する。
局所性認識型注意ネットワーク(LA-Net)は,大域的相関を捉え,スニペット間の位置選好を補正するために構築され,その後,因果畳み込みを伴う多層パーセプトロンにより異常スコアを得る。
論文 参考訳(メタデータ) (2022-08-11T04:27:33Z) - Anomaly Detection in Cybersecurity: Unsupervised, Graph-Based and
Supervised Learning Methods in Adversarial Environments [63.942632088208505]
現在の運用環境に固有ののは、敵対的機械学習の実践である。
本研究では,教師なし学習とグラフに基づく異常検出の可能性を検討する。
我々は,教師付きモデルの訓練時に,現実的な対人訓練機構を組み込んで,対人環境における強力な分類性能を実現する。
論文 参考訳(メタデータ) (2021-05-14T10:05:10Z) - CLAWS: Clustering Assisted Weakly Supervised Learning with Normalcy
Suppression for Anomalous Event Detection [20.368114998124295]
本稿では,多様体の寄与を考慮した弱教師付き異常検出手法を提案する。
提案手法は, UCF Crime と ShanghaiTech のデータセットでそれぞれ 83.03% と 89.67% のフレームレベルの AUC 性能を得る。
論文 参考訳(メタデータ) (2020-11-24T13:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。