論文の概要: MULDE: Multiscale Log-Density Estimation via Denoising Score Matching for Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2403.14497v1
- Date: Thu, 21 Mar 2024 15:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 13:39:41.903315
- Title: MULDE: Multiscale Log-Density Estimation via Denoising Score Matching for Video Anomaly Detection
- Title(参考訳): MULDE:ビデオ異常検出のためのスコアマッチングによるマルチスケールログ密度推定
- Authors: Jakub Micorek, Horst Possegger, Dominik Narnhofer, Horst Bischof, Mateusz Kozinski,
- Abstract要約: 本研究では,ビデオから抽出した特徴ベクトルを,固定分布を持つランダム変数の実現として扱う。
我々は、デノナイジングスコアマッチングの修正を用いて、ビデオ異常検出装置を訓練する。
5つの人気ビデオ異常検出ベンチマーク実験により,最先端の性能が示された。
- 参考スコア(独自算出の注目度): 15.72443573134312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel approach to video anomaly detection: we treat feature vectors extracted from videos as realizations of a random variable with a fixed distribution and model this distribution with a neural network. This lets us estimate the likelihood of test videos and detect video anomalies by thresholding the likelihood estimates. We train our video anomaly detector using a modification of denoising score matching, a method that injects training data with noise to facilitate modeling its distribution. To eliminate hyperparameter selection, we model the distribution of noisy video features across a range of noise levels and introduce a regularizer that tends to align the models for different levels of noise. At test time, we combine anomaly indications at multiple noise scales with a Gaussian mixture model. Running our video anomaly detector induces minimal delays as inference requires merely extracting the features and forward-propagating them through a shallow neural network and a Gaussian mixture model. Our experiments on five popular video anomaly detection benchmarks demonstrate state-of-the-art performance, both in the object-centric and in the frame-centric setup.
- Abstract(参考訳): 本稿では,ビデオから抽出した特徴ベクトルを固定分布のランダム変数の実現として扱い,この分布をニューラルネットワークでモデル化する。
これにより、テストビデオの可能性を推定し、その推定値をしきい値にすることで、ビデオ異常を検出することができる。
そこで我々は,学習データにノイズを注入し,その分布をモデル化する手法であるデノナイジングスコアマッチング(denoising score matching)の修正を用いて,ビデオ異常検出装置を訓練する。
ハイパーパラメータ選択をなくすため,様々なノイズレベルにまたがるノイズの映像特徴の分布をモデル化し,異なるノイズレベルにモデルを整合させるレギュレータを導入する。
テスト時には、複数のノイズスケールにおける異常表示とガウス混合モデルを組み合わせる。
ビデオ異常検出装置の動作は、単に特徴を抽出し、浅いニューラルネットワークとガウス混合モデルを通して前方に伝播する必要があるため、最小限の遅延を誘導する。
一般的な5つのビデオ異常検出ベンチマークの実験では、オブジェクト中心とフレーム中心のセットアップの両方において、最先端のパフォーマンスを示す。
関連論文リスト
- Conditional score-based diffusion models for solving inverse problems in mechanics [6.319616423658121]
条件付きスコアベース拡散モデルを用いてベイズ推定を行う枠組みを提案する。
条件付きスコアベース拡散モデルは条件分布のスコア関数を近似する生成モデルである。
メカニクスにおける高次元逆問題に対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2024-06-19T02:09:15Z) - Diffusion Gaussian Mixture Audio Denoise [23.760755498636943]
本稿では拡散モデルとガウス混合モデルに基づくデノナイズモデルであるDiffGMMモデルを提案する。
まず1D-U-Netを用いて特徴を抽出し,ガウス混合モデルのパラメータを推定する線形層を訓練する。
推定ノイズからノイズ信号を連続的に減算してクリーンオーディオ信号を出力する。
論文 参考訳(メタデータ) (2024-06-13T14:18:10Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - The role of noise in denoising models for anomaly detection in medical
images [62.0532151156057]
病理脳病変は脳画像に多彩な外観を示す。
正規データのみを用いた教師なし異常検出手法が提案されている。
空間分解能の最適化と雑音の大きさの最適化により,異なるモデル学習体制の性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-19T21:39:38Z) - MANet: Improving Video Denoising with a Multi-Alignment Network [72.93429911044903]
本稿では,複数フローの提案とアテンションに基づく平均化を行うマルチアライメントネットワークを提案する。
大規模ビデオデータセットを用いた実験により,本手法は調音ベースラインモデルを0.2dBで改善することを示した。
論文 参考訳(メタデータ) (2022-02-20T00:52:07Z) - Robust Unsupervised Multi-Object Tracking in Noisy Environments [5.409476600348953]
頑健なマルチオブジェクト追跡(MOT)モデルである AttU-Net を導入する。
提案したシングルヘッドアテンションモデルは、異なるセグメントスケールでの視覚的表現を学習することで、ノイズの負の影響を制限するのに役立つ。
本手法をMNISTとAtariゲームビデオベンチマークで評価する。
論文 参考訳(メタデータ) (2021-05-20T19:38:03Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - Motion-Excited Sampler: Video Adversarial Attack with Sparked Prior [63.11478060678794]
そこで本研究では,前もってモーションアウェアノイズを得るための効果的なモーションエキサイティングサンプリング手法を提案する。
より少ないクエリ数で様々なビデオ分類モデルを攻撃することができる。
論文 参考訳(メタデータ) (2020-03-17T10:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。