論文の概要: Spatio-Temporal Relation Learning for Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2209.13116v1
- Date: Tue, 27 Sep 2022 02:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:34:19.058903
- Title: Spatio-Temporal Relation Learning for Video Anomaly Detection
- Title(参考訳): ビデオ異常検出のための時空間関係学習
- Authors: Hui Lv, Zhen Cui, Biao Wang, Jian Yang
- Abstract要約: 異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 35.59510027883497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anomaly identification is highly dependent on the relationship between the
object and the scene, as different/same object actions in same/different scenes
may lead to various degrees of normality and anomaly. Therefore, object-scene
relation actually plays a crucial role in anomaly detection but is inadequately
explored in previous works. In this paper, we propose a Spatial-Temporal
Relation Learning (STRL) framework to tackle the video anomaly detection task.
First, considering dynamic characteristics of the objects as well as scene
areas, we construct a Spatio-Temporal Auto-Encoder (STAE) to jointly exploit
spatial and temporal evolution patterns for representation learning. For better
pattern extraction, two decoding branches are designed in the STAE module, i.e.
an appearance branch capturing spatial cues by directly predicting the next
frame, and a motion branch focusing on modeling the dynamics via optical flow
prediction. Then, to well concretize the object-scene relation, a Relation
Learning (RL) module is devised to analyze and summarize the normal relations
by introducing the Knowledge Graph Embedding methodology. Specifically in this
process, the plausibility of object-scene relation is measured by jointly
modeling object/scene features and optimizable object-scene relation maps.
Extensive experiments are conducted on three public datasets, and the superior
performance over the state-of-the-art methods demonstrates the effectiveness of
our method.
- Abstract(参考訳): 異常識別はオブジェクトとシーンの関係に大きく依存しており、同じ/異なるシーンにおける異なる/異なるオブジェクトアクションは、様々な正常性と異常をもたらす可能性がある。
したがって、オブジェクトとシーンの関係は実際には異常検出において重要な役割を果たすが、以前の作品では不十分に研究されている。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習(STRL)フレームワークを提案する。
まず,物体の動的特徴とシーン領域を考慮し,時空間的自動エンコーダ(stae)を構築し,表現学習に空間的・時間的発展パターンを併用する。
パターン抽出のための2つのデコード分岐はSTAEモジュールで設計されており、例えば、次のフレームを直接予測することで空間的キューをキャプチャする外観分岐と、光学フロー予測によるダイナミクスのモデリングに焦点を当てた動作分岐である。
次に、オブジェクト-シーン関係をよく理解するために、ナレッジグラフ埋め込み方法論を導入することにより、正規関係を解析・要約するために関係学習(rl)モジュールが考案される。
具体的には、オブジェクト/シーンの特徴と最適化可能なオブジェクト/シーン関係マップを併用して、オブジェクト/シーン関係の妥当性を測定する。
3つの公開データセットで広範な実験を行い,最新手法よりも優れた性能が得られた。
関連論文リスト
- Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Object-centric and memory-guided normality reconstruction for video
anomaly detection [56.64792194894702]
本稿では,ビデオ監視における異常検出問題に対処する。
異常事象の固有な規則性と不均一性のため、問題は正規性モデリング戦略と見なされる。
我々のモデルは、トレーニング中に異常なサンプルを見ることなく、オブジェクト中心の正規パターンを学習する。
論文 参考訳(メタデータ) (2022-03-07T19:28:39Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Multiple Object Tracking with Correlation Learning [16.959379957515974]
本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。
具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。
提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
論文 参考訳(メタデータ) (2021-04-08T06:48:02Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。