論文の概要: Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles
- arxiv url: http://arxiv.org/abs/2207.10172v2
- Date: Fri, 22 Jul 2022 03:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 09:14:59.971192
- Title: Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles
- Title(参考訳): 分離型時空間Jigsawパズルによるビデオ異常検出
- Authors: Guodong Wang, Yunhong Wang, Jie Qin, Dongming Zhang, Xiuguo Bao, Di
Huang
- Abstract要約: ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
- 参考スコア(独自算出の注目度): 67.39567701983357
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video Anomaly Detection (VAD) is an important topic in computer vision.
Motivated by the recent advances in self-supervised learning, this paper
addresses VAD by solving an intuitive yet challenging pretext task, i.e.,
spatio-temporal jigsaw puzzles, which is cast as a multi-label fine-grained
classification problem. Our method exhibits several advantages over existing
works: 1) the spatio-temporal jigsaw puzzles are decoupled in terms of spatial
and temporal dimensions, responsible for capturing highly discriminative
appearance and motion features, respectively; 2) full permutations are used to
provide abundant jigsaw puzzles covering various difficulty levels, allowing
the network to distinguish subtle spatio-temporal differences between normal
and abnormal events; and 3) the pretext task is tackled in an end-to-end manner
without relying on any pre-trained models. Our method outperforms
state-of-the-art counterparts on three public benchmarks. Especially on
ShanghaiTech Campus, the result is superior to reconstruction and
prediction-based methods by a large margin.
- Abstract(参考訳): ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,多ラベルきめ細かな分類問題である時空間ジグソーパズル(spatio-temporal jigsaw puzzles)を直感的に解くことで,VADに対処する。
この方法は既存の作品よりもいくつかの利点がある。
1) 時空間ジグソーパズルは、空間的及び時間的次元で分離され、高度に識別的な外観及び動きの特徴をそれぞれ捉える。
2) ネットワークが正常事象と異常事象の微妙な時差を区別できるように, 様々な難易度をカバーする豊富なジグソーパズルを提供するために, 完全置換を用いる。
3)プリテキストタスクは、事前学習されたモデルに頼らず、エンドツーエンドで取り組まれる。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
特に上海工科大学キャンパスでは,再建法や予測法よりも大きなマージンで優れている。
関連論文リスト
- DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly [21.497180110855975]
グラフニューラルネットワーク(GNN)ベースのアーキテクチャであるDiffAssembleを導入する。
本手法は,空間グラフのノードとして,2次元パッチや3次元オブジェクトフラグメントなどの集合の要素を扱う。
我々は、最も高速な最適化に基づくパズル解法よりも11倍高速に実行された、実行時間の大幅な削減を強調した。
論文 参考訳(メタデータ) (2024-02-29T16:09:12Z) - Long-Short Temporal Co-Teaching for Weakly Supervised Video Anomaly
Detection [14.721615285883423]
弱教師付き異常検出(WS-VAD)はビデオレベルのアノテーションだけでVADモデルを学習することを目的とした課題である。
提案手法は,異なる期間の異常や微妙な異常に対処できる。
論文 参考訳(メタデータ) (2023-03-31T13:28:06Z) - Spatio-temporal predictive tasks for abnormal event detection in videos [60.02503434201552]
オブジェクトレベルの正規化パターンを学習するための制約付きプレテキストタスクを提案する。
我々のアプローチは、ダウンスケールの視覚的クエリとそれに対応する正常な外観と運動特性のマッピングを学習することである。
いくつかのベンチマークデータセットの実験では、異常の局所化と追跡のためのアプローチの有効性が示されている。
論文 参考訳(メタデータ) (2022-10-27T19:45:12Z) - BEVStereo: Enhancing Depth Estimation in Multi-view 3D Object Detection
with Dynamic Temporal Stereo [15.479670314689418]
本稿では,マッチング候補のスケールを動的に選択するための効果的な時間ステレオ手法を提案する。
我々は、より価値のある候補を更新するための反復アルゴリズムを設計し、移動可能な候補に適応する。
BEVStereoは、nuScenesデータセットのカメラのみのトラックで、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-09-21T10:21:25Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z) - Egocentric Action Recognition by Video Attention and Temporal Context [83.57475598382146]
我々は,Samsung AI Centre Cambridge を CVPR 2020 EPIC-Kitchens Action Recognition Challenge に提出する。
この課題では、入力トリミングされたビデオクリップが与えられた1つの動詞と名詞のクラスラベルを同時に予測する問題として、行動認識が提案される。
我々のソリューションは、オブジェクト固有の推論や余分なトレーニングデータを用いることなく、課題メトリクスの強力なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-03T18:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。