論文の概要: Autoregressive Denoising Score Matching is a Good Video Anomaly Detector
- arxiv url: http://arxiv.org/abs/2506.23282v1
- Date: Sun, 29 Jun 2025 15:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.805686
- Title: Autoregressive Denoising Score Matching is a Good Video Anomaly Detector
- Title(参考訳): 自動回帰Denoising Score Matchingはビデオ異常検出器
- Authors: Hanwen Zhang, Congqi Cao, Qinyi Lv, Lingtong Min, Yanning Zhang,
- Abstract要約: ビデオ異常検出(VAD)はコンピュータビジョンの重要な問題である。
雑音条件付きスコア変換器を導入し、スコアマッチングを復調する。
次に,シーン依存型,動き認識型スコア関数を提案する。
我々は、新しい自己回帰型聴覚スコアマッチング機構を介して、影響を受けない視覚情報を統合する。
- 参考スコア(独自算出の注目度): 36.96911195723131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly detection (VAD) is an important computer vision problem. Thanks to the mode coverage capabilities of generative models, the likelihood-based paradigm is catching growing interest, as it can model normal distribution and detect out-of-distribution anomalies. However, these likelihood-based methods are blind to the anomalies located in local modes near the learned distribution. To handle these ``unseen" anomalies, we dive into three gaps uniquely existing in VAD regarding scene, motion and appearance. Specifically, we first build a noise-conditioned score transformer for denoising score matching. Then, we introduce a scene-dependent and motion-aware score function by embedding the scene condition of input sequences into our model and assigning motion weights based on the difference between key frames of input sequences. Next, to solve the problem of blindness in principle, we integrate unaffected visual information via a novel autoregressive denoising score matching mechanism for inference. Through autoregressively injecting intensifying Gaussian noise into the denoised data and estimating the corresponding score function, we compare the denoised data with the original data to get a difference and aggregate it with the score function for an enhanced appearance perception and accumulate the abnormal context. With all three gaps considered, we can compute a more comprehensive anomaly indicator. Experiments on three popular VAD benchmarks demonstrate the state-of-the-art performance of our method.
- Abstract(参考訳): ビデオ異常検出(VAD)はコンピュータビジョンの重要な問題である。
生成モデルのモードカバレッジ機能のおかげで、正規分布をモデル化し、分布外異常を検出することができるため、可能性に基づくパラダイムは関心を増している。
しかし、これらの可能性に基づく手法は、学習された分布の近くの局所的なモードにある異常に盲目である。
このような「見えない」異常に対処するために、私たちは、シーン、動き、外観に関して、VADに固有の3つのギャップに飛び込みます。
具体的には,まず雑音条件付きスコア変換器を構築し,スコアマッチングを識別する。
次に,入力シーケンスのシーン条件をモデルに埋め込んで,入力シーケンスのキーフレーム間の差に基づいて動作重みを割り当てることにより,シーン依存・動き認識スコア関数を導入する。
次に,視覚障害の問題を原理的に解くために,推論のための新しい自己回帰的復調スコアマッチング機構を用いて,影響のない視覚情報を統合する。
そこで本研究では,正規化データにガウス雑音を自己回帰的に注入し,対応するスコア関数を推定することにより,識別されたデータを元のデータと比較し,差分を取得してスコア関数に集約して外観知覚を増強し,異常コンテキストを蓄積する。
これら3つのギャップを考慮すると、より包括的な異常指標を計算することができる。
3つの人気のあるVADベンチマーク実験により,本手法の最先端性能を実証した。
関連論文リスト
- Towards Zero-shot 3D Anomaly Localization [58.62650061201283]
3DzALは3D異常検出とローカライゼーションのためのパッチレベルの新しいコントラスト学習フレームワークである。
3DzALは最先端の異常検出および局所化性能より優れていることを示す。
論文 参考訳(メタデータ) (2024-12-05T16:25:27Z) - MULDE: Multiscale Log-Density Estimation via Denoising Score Matching for Video Anomaly Detection [15.72443573134312]
本研究では,ビデオから抽出した特徴ベクトルを,固定分布を持つランダム変数の実現として扱う。
我々は、デノナイジングスコアマッチングの修正を用いて、ビデオ異常検出装置を訓練する。
5つの人気ビデオ異常検出ベンチマーク実験により,最先端の性能が示された。
論文 参考訳(メタデータ) (2024-03-21T15:46:19Z) - Dynamic Addition of Noise in a Diffusion Model for Anomaly Detection [2.209921757303168]
拡散モデルは、名目データ分布を捕捉し、再構成を通して異常を識別することで、異常検出に有用な応用を見出した。
それらの利点にもかかわらず、彼らは様々なスケールの異常、特に欠落した成分全体のような大きな異常をローカライズするのに苦労している。
本稿では,従来の暗黙的条件付け手法であるメングらを拡張し,拡散モデルの能力を高める新しい枠組みを提案する。
2022年は3つの重要な意味を持つ。
論文 参考訳(メタデータ) (2024-01-09T09:57:38Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Unsupervised Video Anomaly Detection with Diffusion Models Conditioned
on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。
提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。
提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文 参考訳(メタデータ) (2023-07-04T07:36:48Z) - The role of noise in denoising models for anomaly detection in medical
images [62.0532151156057]
病理脳病変は脳画像に多彩な外観を示す。
正規データのみを用いた教師なし異常検出手法が提案されている。
空間分解能の最適化と雑音の大きさの最適化により,異なるモデル学習体制の性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-19T21:39:38Z) - Unsupervised Visual Defect Detection with Score-Based Generative Model [17.610722842950555]
我々は、教師なしの視覚的欠陥検出とローカライゼーションタスクに焦点をあてる。
近年のスコアベース生成モデルに基づく新しいフレームワークを提案する。
提案手法を複数のデータセット上で評価し,その有効性を実証する。
論文 参考訳(メタデータ) (2022-11-29T11:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。