論文の概要: Long-Short Temporal Co-Teaching for Weakly Supervised Video Anomaly
Detection
- arxiv url: http://arxiv.org/abs/2303.18044v1
- Date: Fri, 31 Mar 2023 13:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 13:54:41.698657
- Title: Long-Short Temporal Co-Teaching for Weakly Supervised Video Anomaly
Detection
- Title(参考訳): 弱教師付きビデオ異常検出のための長短時間同時学習
- Authors: Shengyang Sun, Xiaojin Gong
- Abstract要約: 弱教師付き異常検出(WS-VAD)はビデオレベルのアノテーションだけでVADモデルを学習することを目的とした課題である。
提案手法は,異なる期間の異常や微妙な異常に対処できる。
- 参考スコア(独自算出の注目度): 14.721615285883423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised video anomaly detection (WS-VAD) is a challenging problem
that aims to learn VAD models only with video-level annotations. In this work,
we propose a Long-Short Temporal Co-teaching (LSTC) method to address the
WS-VAD problem. It constructs two tubelet-based spatio-temporal transformer
networks to learn from short- and long-term video clips respectively. Each
network is trained with respect to a multiple instance learning (MIL)-based
ranking loss, together with a cross-entropy loss when clip-level pseudo labels
are available. A co-teaching strategy is adopted to train the two networks.
That is, clip-level pseudo labels generated from each network are used to
supervise the other one at the next training round, and the two networks are
learned alternatively and iteratively. Our proposed method is able to better
deal with the anomalies with varying durations as well as subtle anomalies.
Extensive experiments on three public datasets demonstrate that our method
outperforms state-of-the-art WS-VAD methods.
- Abstract(参考訳): 弱教師付きビデオ異常検出(WS-VAD)は,ビデオレベルのアノテーションのみでVADモデルを学習することを目的とした課題である。
本稿では,WS-VAD問題に対処するLong-Short Temporal Co-Teaching (LSTC)法を提案する。
短期ビデオクリップと長期ビデオクリップから学ぶために、2つのチューブレットベースの時空間トランスフォーマーネットワークを構築する。
各ネットワークは、複数のインスタンス学習(MIL)ベースのランキング損失と、クリップレベルの擬似ラベルが利用できる場合のクロスエントロピー損失に関してトレーニングされる。
2つのネットワークをトレーニングするために、共同学習戦略が採用されている。
すなわち、各ネットワークから生成されたクリップレベルの擬似ラベルを使用して、次のトレーニングラウンドで他方を監督し、2つのネットワークを交互かつ反復的に学習する。
提案手法は,持続時間の異なる異常や微妙な異常に対処できる。
3つの公開データセットに対する大規模な実験により、我々の手法は最先端のWS-VAD法より優れていることが示された。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文 参考訳(メタデータ) (2022-09-23T08:29:16Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Large Scale Time-Series Representation Learning via Simultaneous Low and
High Frequency Feature Bootstrapping [7.0064929761691745]
本稿では,非コントラスト型自己教師型学習手法を提案する。
提案手法は生の時系列データを入力として、モデルの2つのブランチに対して2つの異なる拡張ビューを生成する。
モデルの堅牢性を実証するために,5つの実世界の時系列データセットに関する広範な実験とアブレーション研究を行った。
論文 参考訳(メタデータ) (2022-04-24T14:39:47Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Capturing Temporal Information in a Single Frame: Channel Sampling
Strategies for Action Recognition [19.220288614585147]
計算コストを増大させることなく、2次元ネットワークにおける映像分類のための時間情報をキャプチャする問題に対処する。
そこで我々は,短期的なフレーム・ツー・フレームの変化を捉えるために,入力ビデオのチャネルを並べ替える新しいサンプリング手法を提案する。
我々のサンプリング戦略は、スクラッチからのトレーニングを必要とせず、トレーニングとテストの計算コストを増大させません。
論文 参考訳(メタデータ) (2022-01-25T15:24:37Z) - Video Abnormal Event Detection by Learning to Complete Visual Cloze
Tests [50.1446994599891]
ビデオ異常事象(VAD)は、大まかにラベル付けされた通常のビデオでのみ学習を必要とする、重要な半教師付きタスクである。
本稿では,視覚的クローゼテスト(VCT)の完了を学習することで,視覚的クローゼ(VCC)という新しいアプローチを提案する。
我々はVCCが最先端のVAD性能を達成することを示す。
論文 参考訳(メタデータ) (2021-08-05T04:05:36Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Weakly-supervised Video Anomaly Detection with Contrastive Learning of
Long and Short-range Temporal Features [26.474395581531194]
MTN-KMIL(Top-K Contrastive Multiple Instance Learning)を用いたマルチスケールテンポラルネットワークを提案する。
提案手法は,3つのベンチマークデータセットに対して,最先端の手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-01-25T12:04:00Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。