論文の概要: Learning Normal Dynamics in Videos with Meta Prototype Network
- arxiv url: http://arxiv.org/abs/2104.06689v1
- Date: Wed, 14 Apr 2021 08:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:18:30.522447
- Title: Learning Normal Dynamics in Videos with Meta Prototype Network
- Title(参考訳): メタプロトタイプネットワークを用いたビデオの正規ダイナミクスの学習
- Authors: Hui Lv, Chen Chen, Zhen Cui, Chunyan Xu, Yong Li, Jian Yang
- Abstract要約: メモリコストを伴わずに,プロトタイプとして正規ダイナミクスをリアルタイムに符号化するプロトタイプユニット(DPU)を提案する。
さらに,メタ・プロトタイプ・ユニット(MPU)という,新規な数発の正規化学習者を形成するメタ・ラーニングを導入する。
- 参考スコア(独自算出の注目度): 42.26572006215833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frame reconstruction (current or future frame) based on Auto-Encoder (AE) is
a popular method for video anomaly detection. With models trained on the normal
data, the reconstruction errors of anomalous scenes are usually much larger
than those of normal ones. Previous methods introduced the memory bank into AE,
for encoding diverse normal patterns across the training videos. However, they
are memory-consuming and cannot cope with unseen new scenarios in the testing
data. In this work, we propose a dynamic prototype unit (DPU) to encode the
normal dynamics as prototypes in real time, free from extra memory cost. In
addition, we introduce meta-learning to our DPU to form a novel few-shot
normalcy learner, namely Meta-Prototype Unit (MPU). It enables the fast
adaption capability on new scenes by only consuming a few iterations of update.
Extensive experiments are conducted on various benchmarks. The superior
performance over the state-of-the-art demonstrates the effectiveness of our
method.
- Abstract(参考訳): オートエンコーダ(AE)に基づくフレーム再構成(現在または将来のフレーム)は、ビデオ異常検出の一般的な方法である。
通常のデータに基づいてトレーニングされたモデルでは、異常シーンの再構成エラーは通常、通常のものよりもはるかに大きい。
以前の方法では、トレーニングビデオのさまざまな通常のパターンをエンコードするために、メモリバンクをAEに導入していた。
しかし、これらはメモリ消費であり、テストデータで目に見えない新しいシナリオに対処できない。
本研究では,メモリの余分なコストを伴わずに,動的プロトタイプをプロトタイプとしてリアルタイムに符号化する動的プロトタイプユニット(DPU)を提案する。
さらに,DPUにメタラーニングを導入し,メタプロトタイプユニット(MPU)という,新しい数発の正規化学習システムを構築した。
新しいシーンへの高速な適応機能を実現するために、更新を数回繰り返すだけでよい。
様々なベンチマークで広範な実験が行われている。
最先端技術よりも優れた性能は,本手法の有効性を示す。
関連論文リスト
- Future Video Prediction from a Single Frame for Video Anomaly Detection [0.38073142980732994]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要であるが難しい課題である。
本稿では,ビデオ異常検出のための新しいプロキシタスクとして,将来のフレーム予測プロキシタスクを紹介する。
このプロキシタスクは、より長い動きパターンを学習する従来の手法の課題を軽減する。
論文 参考訳(メタデータ) (2023-08-15T14:04:50Z) - Unsupervised Video Anomaly Detection with Diffusion Models Conditioned
on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。
提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。
提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文 参考訳(メタデータ) (2023-07-04T07:36:48Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z) - Multi-Contextual Predictions with Vision Transformer for Video Anomaly
Detection [22.098399083491937]
ビデオの時間的文脈を理解することは、異常検出において重要な役割を果たす。
我々は3つの異なる文脈予測ストリームを持つトランスモデルを設計する。
連続する正常フレームの欠落フレームの予測を学習することにより、ビデオ内の様々な正常パターンを効果的に学習することができる。
論文 参考訳(メタデータ) (2022-06-17T05:54:31Z) - Normal Learning in Videos with Attention Prototype Network [6.842621605295172]
本稿では,通常の潜伏空間をプロトタイプとしてリアルタイムに符号化する自己注意型プロトタイプユニット(APU)を提案する。
さらに,我々の背骨に循環的注意機構を導入し,新たな特徴抽出学習者,すなわち循環的注意ユニット(CAU)を形成する。
論文 参考訳(メタデータ) (2021-08-25T05:51:58Z) - Anomaly Detection with Prototype-Guided Discriminative Latent Embeddings [29.93983580779689]
本論文では,通常のデータの識別的プロトタイプを用いて映像フレームを再構築する異常検出手法を提案する。
このようにして、モデルは通常のイベントの再構築を支持し、異常なイベントの再構築を歪めます。
本手法の有効性を3つのベンチマークデータセットで評価し,提案手法が最先端を上回っていることを示す。
論文 参考訳(メタデータ) (2021-04-30T12:16:52Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。