論文の概要: Frequency-Guided Diffusion Model with Perturbation Training for Skeleton-Based Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2412.03044v1
- Date: Wed, 04 Dec 2024 05:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:20.665884
- Title: Frequency-Guided Diffusion Model with Perturbation Training for Skeleton-Based Video Anomaly Detection
- Title(参考訳): 骨格型ビデオ異常検出のための摂動訓練を用いた周波数誘導拡散モデル
- Authors: Xiaofeng Tan, Hongsong Wang, Xin Geng,
- Abstract要約: ビデオ異常検出は、コンピュータビジョンにおいて必須だが困難なオープンセットタスクである。
既存の再構築手法では,(1)開放シナリオに対するモデルロバストネスの制限,(2)詳細な動作再構成のための過剰な能力の制限,の2つの面で課題に直面する。
本稿では,摂動トレーニングによるモデルロバスト性を高めるために,摂動トレーニングを用いた新しい周波数誘導拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 41.3349755014379
- License:
- Abstract: Video anomaly detection is an essential yet challenging open-set task in computer vision, often addressed by leveraging reconstruction as a proxy task. However, existing reconstruction-based methods encounter challenges in two main aspects: (1) limited model robustness for open-set scenarios, (2) and an overemphasis on, but restricted capacity for, detailed motion reconstruction. To this end, we propose a novel frequency-guided diffusion model with perturbation training, which enhances the model robustness by perturbation training and emphasizes the principal motion components guided by motion frequencies. Specifically, we first use a trainable generator to produce perturbative samples for perturbation training of the diffusion model. During the perturbation training phase, the model robustness is enhanced and the domain of the reconstructed model is broadened by training against this generator. Subsequently, perturbative samples are introduced for inference, which impacts the reconstruction of normal and abnormal motions differentially, thereby enhancing their separability. Considering that motion details originate from high-frequency information, we propose a masking method based on 2D discrete cosine transform to separate high-frequency information and low-frequency information. Guided by the high-frequency information from observed motion, the diffusion model can focus on generating low-frequency information, and thus reconstructing the motion accurately. Experimental results on five video anomaly detection datasets, including human-related and open-set benchmarks, demonstrate the effectiveness of the proposed method. Our code is available at https://github.com/Xiaofeng-Tan/FGDMAD-Code.
- Abstract(参考訳): ビデオ異常検出は、コンピュータビジョンにおいて必須かつ困難なオープンセットタスクであり、しばしば、リコンストラクションをプロキシタスクとして活用することで対処される。
しかし,既存の再構築手法では,(1)オープンセットシナリオのモデルロバスト性に制限がある,(2)詳細な動作再構成の能力に制限がある,という2つの面で課題に直面している。
この目的のために,摂動トレーニングによるモデルロバスト性を高め,運動周波数で導かれる主動作成分を強調する新しい周波数誘導拡散モデルを提案する。
具体的には、まずトレーニング可能な発電機を用いて、拡散モデルの摂動トレーニングのための摂動サンプルを生成する。
摂動訓練フェーズにおいて、モデルロバスト性を高め、このジェネレータに対するトレーニングにより再構成モデルの領域を広げる。
その後、摂動サンプルが推論のために導入され、正常な動きと異常な動きの再構成に異なる影響を与え、分離性を高める。
動きの詳細が高周波情報に由来することを考慮し、2次元離散コサイン変換に基づくマスキング手法を提案し、高周波情報と低周波情報を分離する。
観察された動きからの高周波情報によって導かれる拡散モデルは、低周波情報の生成に焦点を合わせ、その動きを正確に再構成することができる。
人為的およびオープンセットなベンチマークを含む5つのビデオ異常検出データセットの実験結果から,提案手法の有効性が示された。
私たちのコードはhttps://github.com/Xiaofeng-Tan/FGDMAD-Codeで利用可能です。
関連論文リスト
- Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking [52.393359791978035]
Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。
グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。
時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。
論文 参考訳(メタデータ) (2024-01-12T15:05:08Z) - Dynamic Addition of Noise in a Diffusion Model for Anomaly Detection [2.209921757303168]
拡散モデルは、名目データ分布を捕捉し、再構成を通して異常を識別することで、異常検出に有用な応用を見出した。
それらの利点にもかかわらず、彼らは様々なスケールの異常、特に欠落した成分全体のような大きな異常をローカライズするのに苦労している。
本稿では,従来の暗黙的条件付け手法であるメングらを拡張し,拡散モデルの能力を高める新しい枠組みを提案する。
2022年は3つの重要な意味を持つ。
論文 参考訳(メタデータ) (2024-01-09T09:57:38Z) - Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image
Denoising [16.43285056788183]
再構成・生成拡散モデル(Reconstruct-and-Generate Diffusion Model, RnG)と呼ばれる新しい手法を提案する。
提案手法は, 再構成型復調ネットワークを利用して, 基礎となるクリーン信号の大半を復元する。
拡散アルゴリズムを用いて残留する高周波の詳細を生成し、視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-09-19T16:01:20Z) - DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and
Highlight Detection [38.12212015133935]
DiffusionVMRという新しいフレームワークは、2つのタスクを統一された条件記述生成プロセスとして再定義するために提案されている。
5つの広く利用されているベンチマークで実施された実験は、提案されたDiffusionVMRの有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2023-08-29T08:20:23Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - Exploring Diffusion Models for Unsupervised Video Anomaly Detection [17.816344808780965]
本稿では,ビデオ異常検出(VAD)における拡散モデルの性能について検討する。
2つの大規模異常検出データセットで実施された実験は、最先端の生成モデルよりも提案手法の一貫性のある改善を実証している。
本研究は, 拡散モデルを用いて, 監視シナリオにおけるVOD検査の指針を示す最初の研究である。
論文 参考訳(メタデータ) (2023-04-12T13:16:07Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly
Detection [89.49600182243306]
我々は拡散モデルを用いて再構成過程をノイズ・ツー・ノームパラダイムに再構成する。
本稿では,拡散モデルにおける従来の反復的復調よりもはるかに高速な高速な一段階復調パラダイムを提案する。
セグメント化サブネットワークは、入力画像とその異常のない復元を用いて画素レベルの異常スコアを予測する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - The role of noise in denoising models for anomaly detection in medical
images [62.0532151156057]
病理脳病変は脳画像に多彩な外観を示す。
正規データのみを用いた教師なし異常検出手法が提案されている。
空間分解能の最適化と雑音の大きさの最適化により,異なるモデル学習体制の性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-19T21:39:38Z) - Empowering Diffusion Models on the Embedding Space for Text Generation [38.664533078347304]
埋め込み空間とデノナイジングモデルの両方で直面する最適化課題について検討する。
データ分散は埋め込みにおいて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。
以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
論文 参考訳(メタデータ) (2022-12-19T12:44:25Z) - Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。