論文の概要: MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection
- arxiv url: http://arxiv.org/abs/2104.01633v1
- Date: Sun, 4 Apr 2021 15:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 04:09:07.567086
- Title: MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection
- Title(参考訳): mist: ビデオ異常検出のためのマルチインスタンス自己学習フレームワーク
- Authors: Jia-Chang Feng, Fa-Ting Hong, Wei-Shi Zheng
- Abstract要約: タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
- 参考スコア(独自算出の注目度): 76.80153360498797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised video anomaly detection (WS-VAD) is to distinguish
anomalies from normal events based on discriminative representations. Most
existing works are limited in insufficient video representations. In this work,
we develop a multiple instance self-training framework (MIST)to efficiently
refine task-specific discriminative representations with only video-level
annotations. In particular, MIST is composed of 1) a multiple instance pseudo
label generator, which adapts a sparse continuous sampling strategy to produce
more reliable clip-level pseudo labels, and 2) a self-guided attention boosted
feature encoder that aims to automatically focus on anomalous regions in frames
while extracting task-specific representations. Moreover, we adopt a
self-training scheme to optimize both components and finally obtain a
task-specific feature encoder. Extensive experiments on two public datasets
demonstrate the efficacy of our method, and our method performs comparably to
or even better than existing supervised and weakly supervised methods,
specifically obtaining a frame-level AUC 94.83% on ShanghaiTech.
- Abstract(参考訳): 弱教師付きビデオ異常検出(WS-VAD)は、識別表現に基づく正常事象と異常を区別することである。
既存の作品の多くはビデオ表現に乏しい。
本研究では,ビデオレベルのアノテーションだけでタスク固有の識別表現を効率的に洗練するマルチインスタンス自己学習フレームワーク(MIST)を開発した。
特に、MISTは、(1)より信頼性の高いクリップレベルの擬似ラベルを生成するためにスパース連続サンプリング戦略を適用するマルチインスタンス擬似ラベルジェネレータと、(2)タスク固有の表現を抽出しながらフレーム内の異常領域に自動的にフォーカスすることを目的とした自己誘導注意促進機能エンコーダとからなる。
さらに,両コンポーネントを最適化し,最終的にタスク固有の特徴エンコーダを得るための自己学習方式を採用する。
2つの公開データセットに対する大規模な実験により,本手法の有効性が実証され,上海技術におけるフレームレベルのAUC 94.83%の取得が可能となった。
関連論文リスト
- Distilling Aggregated Knowledge for Weakly-Supervised Video Anomaly Detection [11.250490586786878]
ビデオ異常検出は、監視ビデオにおける異常事象を識別できる自動モデルを開発することを目的としている。
集約表現から比較的単純なモデルに知識を蒸留することで,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-05T00:44:42Z) - Weakly Supervised Video Individual CountingWeakly Supervised Video
Individual Counting [126.75545291243142]
Video Individual Countingは、単一のビデオ内のユニークな個人数を予測することを目的としている。
トラジェクトリラベルが提供されない弱い教師付きVICタスクを導入する。
そこで我々は,ネットワークを駆動し,インフロー,アウトフロー,残りを識別するために,エンドツーエンドのトレーニング可能なソフトコントラスト損失を考案した。
論文 参考訳(メタデータ) (2023-12-10T16:12:13Z) - A Coarse-to-Fine Pseudo-Labeling (C2FPL) Framework for Unsupervised
Video Anomaly Detection [4.494911384096143]
ビデオにおける異常事象の検出は、監視などのアプリケーションにおいて重要な問題である。
セグメントレベル(正規/異常)の擬似ラベルを生成する簡易な2段擬似ラベル生成フレームワークを提案する。
提案した粗大な擬似ラベル生成器は、慎重に設計された階層的分割クラスタリングと統計的仮説テストを用いている。
論文 参考訳(メタデータ) (2023-10-26T17:59:19Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Learning to Adapt to Unseen Abnormal Activities under Weak Supervision [43.40900198498228]
ビデオ中の弱教師付き異常検出のためのメタラーニングフレームワークを提案する。
このフレームワークは,バイナリラベルの動画レベルのアノテーションが利用可能である場合にのみ,目に見えないような異常なアクティビティに効果的に対応できることを学習する。
論文 参考訳(メタデータ) (2022-03-25T12:15:44Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - A Self-Reasoning Framework for Anomaly Detection Using Video-Level
Labels [17.615297975503648]
監視ビデオにおける異常事象の検出は、画像およびビデオ処理コミュニティの間で困難かつ実践的な研究課題である。
本稿では、ビデオレベルラベルのみを用いて自己推論方式で訓練されたディープニューラルネットワークに基づく、弱い教師付き異常検出フレームワークを提案する。
提案するフレームワークは,UCF-crimeやShanghaiTech,Ped2など,公開されている実世界の異常検出データセット上で評価されている。
論文 参考訳(メタデータ) (2020-08-27T02:14:15Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。