論文の概要: Learning Appearance-motion Normality for Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2207.13361v1
- Date: Wed, 27 Jul 2022 08:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 14:00:35.218267
- Title: Learning Appearance-motion Normality for Video Anomaly Detection
- Title(参考訳): ビデオ異常検出のための学習動作正規度
- Authors: Yang Liu, Jing Liu, Mengyang Zhao, Dingkang Yang, Xiaoguang Zhu, Liang
Song
- Abstract要約: 時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。
見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
- 参考スコア(独自算出の注目度): 11.658792932975652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly detection is a challenging task in the computer vision
community. Most single task-based methods do not consider the independence of
unique spatial and temporal patterns, while two-stream structures lack the
exploration of the correlations. In this paper, we propose spatial-temporal
memories augmented two-stream auto-encoder framework, which learns the
appearance normality and motion normality independently and explores the
correlations via adversarial learning. Specifically, we first design two proxy
tasks to train the two-stream structure to extract appearance and motion
features in isolation. Then, the prototypical features are recorded in the
corresponding spatial and temporal memory pools. Finally, the encoding-decoding
network performs adversarial learning with the discriminator to explore the
correlations between spatial and temporal patterns. Experimental results show
that our framework outperforms the state-of-the-art methods, achieving AUCs of
98.1% and 89.8% on UCSD Ped2 and CUHK Avenue datasets.
- Abstract(参考訳): ビデオ異常検出はコンピュータビジョンコミュニティにとって難しい課題である。
単一のタスクベース手法のほとんどは、一意な空間的パターンと時間的パターンの独立性を考慮していないが、2つのストリーム構造は相関の探索を欠いている。
本稿では,出現正規性と運動正規性を独立に学習し,逆学習を通じて相関関係を探索する,空間時間記憶拡張型2ストリームオートエンコーダフレームワークを提案する。
具体的には、まず2ストリーム構造を訓練し、外見と運動の特徴を独立に抽出する2つのプロキシタスクを設計する。
そして、対応する空間記憶プール及び時間記憶プールに原型特徴を記録する。
最後に、符号化復号ネットワークは、識別器との対角学習を行い、空間パターンと時間パターンの相関を探索する。
実験の結果,UCSD Ped2 と CUHK Avenue のデータセット上で AUC の98.1% と89.8% を達成し,最先端の手法よりも優れた性能を示した。
関連論文リスト
- Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based
Human Action Recognition [10.403751563214113]
STD-CLは、配列から識別的および意味的に異なる表現を得るためのフレームワークである。
STD-CLは、NTU60、NTU120、NW-UCLAベンチマークでしっかりと改善されている。
論文 参考訳(メタデータ) (2023-12-23T02:54:41Z) - Holistic Representation Learning for Multitask Trajectory Anomaly
Detection [65.72942351514956]
そこで本研究では,異なる時間帯における骨格軌跡の包括的表現による予測運動の学習を提案する。
我々は、時間的閉鎖された軌道を符号化し、ブロックされたセグメントの潜在表現を共同学習し、異なる時間的セグメントにわたる期待運動に基づいて軌道を再構築する。
論文 参考訳(メタデータ) (2023-11-03T11:32:53Z) - Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph
Generation [64.85974098314344]
映像シーングラフ生成(VidSGG)は、映像シーン内の物体を特定し、その映像との関係を推測することを目的としている。
因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受する。
本稿では,従来の空間的時間的知識をマルチヘッド・クロスアテンション機構に組み込んだ時空間的知識埋め込み型トランス (STKET) を提案する。
論文 参考訳(メタデータ) (2023-09-23T02:40:28Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Exploiting Spatial-temporal Correlations for Video Anomaly Detection [7.336831373786849]
ビデオ異常検出(VAD)は、異常事象のあいまいさと多様性のため、パターン認識コミュニティにおいて難しい課題である。
本稿では,ST-LSTMを用いて逆学習を行うための識別器を導入し,学習能力を向上させる。
本手法は, UCSD2, CUHKアベニュー, 上海テックにおいて, AUCの96.7%, 87.8%, 73.1%の最先端手法と比較して, 競争性能が向上する。
論文 参考訳(メタデータ) (2022-11-02T02:13:24Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Multiple Object Tracking with Correlation Learning [16.959379957515974]
本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。
具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。
提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
論文 参考訳(メタデータ) (2021-04-08T06:48:02Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning [6.523119805288132]
a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
論文 参考訳(メタデータ) (2020-11-23T08:05:39Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。