論文の概要: Action Hints: Semantic Typicality and Context Uniqueness for Generalizable Skeleton-based Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2509.11058v1
- Date: Sun, 14 Sep 2025 02:51:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.890619
- Title: Action Hints: Semantic Typicality and Context Uniqueness for Generalizable Skeleton-based Video Anomaly Detection
- Title(参考訳): 行動ヒント: 一般化可能な骨格型ビデオ異常検出のための意味的典型性と文脈特異性
- Authors: Canhui Tang, Sanping Zhou, Haoyue Shi, Le Wang,
- Abstract要約: 動作の典型性や一意性学習を通じて骨格データの可能性を解き放つ新しいゼロショットビデオ異常検出フレームワークを提案する。
提案手法は,4つの大規模VADデータセット上でのスケルトンに基づく手法に対する最先端の結果を得る。
- 参考スコア(独自算出の注目度): 39.65895515365808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-Shot Video Anomaly Detection (ZS-VAD) requires temporally localizing anomalies without target domain training data, which is a crucial task due to various practical concerns, e.g., data privacy or new surveillance deployments. Skeleton-based approach has inherent generalizable advantages in achieving ZS-VAD as it eliminates domain disparities both in background and human appearance. However, existing methods only learn low-level skeleton representation and rely on the domain-limited normality boundary, which cannot generalize well to new scenes with different normal and abnormal behavior patterns. In this paper, we propose a novel zero-shot video anomaly detection framework, unlocking the potential of skeleton data via action typicality and uniqueness learning. Firstly, we introduce a language-guided semantic typicality modeling module that projects skeleton snippets into action semantic space and distills LLM's knowledge of typical normal and abnormal behaviors during training. Secondly, we propose a test-time context uniqueness analysis module to finely analyze the spatio-temporal differences between skeleton snippets and then derive scene-adaptive boundaries. Without using any training samples from the target domain, our method achieves state-of-the-art results against skeleton-based methods on four large-scale VAD datasets: ShanghaiTech, UBnormal, NWPU, and UCF-Crime, featuring over 100 unseen surveillance scenes.
- Abstract(参考訳): Zero-Shot Video Anomaly Detection (ZS-VAD)は、ターゲットドメインのトレーニングデータなしで時間的に異常をローカライズする必要がある。
骨格に基づくアプローチは、背景と人間の外観の両方においてドメインの相違を排除するため、ZS-VADを達成するという本質的に一般化可能な利点がある。
しかし, 従来の手法では, 低レベルの骨格表現のみを学習し, ドメイン限定の正規性境界に依存している。
本稿では,アクションの典型性と特異性学習による骨格データの可能性を解き放つ,ゼロショットビデオ異常検出フレームワークを提案する。
まず,スケルトンスニペットをアクションセマンティクス空間に射出する言語誘導型セマンティック典型モデリングモジュールを導入し,学習中の通常動作や異常動作に関するLLMの知識を抽出する。
次に,スケルトンスニペット間の時空間差を微妙に解析し,シーン適応境界を導出するテスト時間コンテキスト一意性解析モジュールを提案する。
対象領域からのトレーニングサンプルを一切使わずに,上海技術,UBnormal,NWPU,UCF-Crimeの4つの大規模VADデータセット上で,100以上の監視シーンを特徴とする骨格ベースの手法に対して,最先端の結果が得られる。
関連論文リスト
- Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach [49.995833831087175]
本研究は,画像のマスキング領域にペンキを塗布することにより,汎用的な映像時間PAを生成する手法を提案する。
さらに,OCC設定下での現実世界の異常を検出するための単純な統合フレームワークを提案する。
提案手法は,OCC設定下での既存のPAs生成および再構築手法と同等に動作する。
論文 参考訳(メタデータ) (2023-11-27T13:14:06Z) - Prompt-Guided Zero-Shot Anomaly Action Recognition using Pretrained Deep
Skeleton Features [3.255030588361124]
教師なしの異常行動認識は、異常なサンプルを伴わずに、教師なしの方法で、ビデオレベルの異常な人間-行動事象を識別する。
対象領域非依存型骨格特徴抽出器を用いたユーザプロンプト誘導型ゼロショット学習フレームワークを提案する。
ユーザプロンプト埋め込みと共通空間に並んだ骨格的特徴の類似度スコアを異常スコアに組み込み,通常の動作を間接的に補う。
論文 参考訳(メタデータ) (2023-03-27T12:59:33Z) - Cross-Domain Video Anomaly Detection without Target Domain Adaptation [38.823721272155616]
ビデオ異常検出(VAD)作業は、ソースからターゲットドメインへの適応のために、少なくともタスク関連ターゲットドメイントレーニングデータが利用可能なことを前提としている。
このためには、最初から動作するシステムを好むエンドユーザによる厳格なモデルチューニングが必要です。
論文 参考訳(メタデータ) (2022-12-14T03:48:00Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Anomaly Crossing: A New Method for Video Anomaly Detection as
Cross-domain Few-shot Learning [32.0713939637202]
ビデオ異常検出は、ビデオで発生した異常事象を特定することを目的としている。
従来のアプローチのほとんどは、教師なしまたは半教師なしの手法で通常のビデオからのみ学習する。
本稿では,ビデオの異常検出に通常のビデオと異常ビデオの両方をフル活用することで,新たな学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-12-12T20:49:38Z) - A Background-Agnostic Framework with Adversarial Training for Abnormal
Event Detection in Video [120.18562044084678]
近年,ビデオにおける異常事象検出は複雑なコンピュータビジョンの問題として注目されている。
通常のイベントのみを含むトレーニングビデオから学習するバックグラウンドに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-27T18:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。