論文の概要: Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video
- arxiv url: http://arxiv.org/abs/2108.03825v1
- Date: Mon, 9 Aug 2021 06:11:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:20:46.767452
- Title: Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video
- Title(参考訳): 監視ビデオにおける弱教師付き時空間異常検出
- Authors: Jie Wu, Wei Zhang, Guanbin Li, Wenhao Wu, Xiao Tan, Yingying Li, Errui
Ding, Liang Lin
- Abstract要約: Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
- 参考スコア(独自算出の注目度): 128.41392860714635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a novel task, referred to as Weakly-Supervised
Spatio-Temporal Anomaly Detection (WSSTAD) in surveillance video. Specifically,
given an untrimmed video, WSSTAD aims to localize a spatio-temporal tube (i.e.,
a sequence of bounding boxes at consecutive times) that encloses the abnormal
event, with only coarse video-level annotations as supervision during training.
To address this challenging task, we propose a dual-branch network which takes
as input the proposals with multi-granularities in both spatial-temporal
domains. Each branch employs a relationship reasoning module to capture the
correlation between tubes/videolets, which can provide rich contextual
information and complex entity relationships for the concept learning of
abnormal behaviors. Mutually-guided Progressive Refinement framework is set up
to employ dual-path mutual guidance in a recurrent manner, iteratively sharing
auxiliary supervision information across branches. It impels the learned
concepts of each branch to serve as a guide for its counterpart, which
progressively refines the corresponding branch and the whole framework.
Furthermore, we contribute two datasets, i.e., ST-UCF-Crime and STRA,
consisting of videos containing spatio-temporal abnormal annotations to serve
as the benchmarks for WSSTAD. We conduct extensive qualitative and quantitative
evaluations to demonstrate the effectiveness of the proposed approach and
analyze the key factors that contribute more to handle this task.
- Abstract(参考訳): 本稿では,監視ビデオにWakly-Supervised Spatio-Temporal Anomaly Detection (WSSTAD)と呼ばれる新しいタスクを導入する。
特に、ビデオがトリミングされていない場合、WSSTADは、トレーニング中の監督として粗いビデオレベルのアノテーションのみを伴って、異常イベントを囲む時空間管(すなわち連続する境界ボックス列)をローカライズすることを目的としている。
この課題に対処するため,両時空間領域に複数粒度を持つ提案を入力として二分岐ネットワークを提案する。
各ブランチは、管/ビデオレット間の相関を捉えるために関係推論モジュールを使用し、異常な振る舞いの概念学習のためのリッチなコンテキスト情報と複雑なエンティティ関係を提供する。
相互誘導型プログレッシブ・リファインメント・フレームワークは、複数経路相互誘導を反復的に適用し、複数の枝にまたがって補助的な監視情報を反復的に共有する。
それぞれのブランチの学習した概念を、対応するブランチとフレームワーク全体を段階的に洗練する、それぞれのブランチのガイドとして機能させる。
さらに、WSSTADのベンチマークとして、時空間異常アノテーションを含むビデオからなるST-UCF-CrimeとSTRAの2つのデータセットをコントリビュートする。
本研究は,提案手法の有効性を実証し,この課題に寄与する重要な要因を分析するために,広範囲な質的,定量的な評価を行う。
関連論文リスト
- Deconstruct Complexity (DeComplex): A Novel Perspective on Tackling Dense Action Detection [23.100602876056165]
我々は、人間が複雑なタスクに対して、管理可能なサブタスクに分割することでどのように対処するかに着想を得た、新しい視点を導入する。
問題全体の解決に1つのネットワークに頼る代わりに、アクションクラスに存在する重要な概念を検出するために問題を分解することを提案する。
我々の実験は、最先端手法に対するアプローチの優位性を実証している。
論文 参考訳(メタデータ) (2025-01-30T17:20:42Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-27T11:13:04Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Unpaired Adversarial Learning for Single Image Deraining with Rain-Space
Contrastive Constraints [61.40893559933964]
我々は,CDR-GAN という名称の GAN フレームワークにおいて,比較学習手法により,経験者の相互特性を探索する有効な非経験的 SID 手法を開発した。
提案手法は, 合成および実世界の両方のデータセットにおいて, 既存の非対効果のデラミニング手法に対して良好に動作し, 完全教師付きモデルや半教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2021-09-07T10:00:45Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Self-Supervised Learning for Semi-Supervised Temporal Action Proposal [42.6254639252739]
SSTAP(Self-supervised Semi-supervised Temporal Action Proposal)フレームワークの設計を行います。
SSTAPは2つの重要な分岐、すなわち時間対応半監督枝と関係対応自監督枝を含んでいる。
提案されたSSTAPをTHUMOS14およびActivityNet v1.3データセット上で幅広く評価する。
論文 参考訳(メタデータ) (2021-04-07T16:03:25Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。