論文の概要: SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection
- arxiv url: http://arxiv.org/abs/2207.08003v1
- Date: Sat, 16 Jul 2022 19:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 15:21:22.915916
- Title: SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection
- Title(参考訳): SSMTL++:ビデオ異常検出のための自己改善型マルチタスク学習の再検討
- Authors: Antonio Barbalau, Radu Tudor Ionescu, Mariana-Iuliana Georgescu, Jacob
Dueholm, Bharathkumar Ramachandra, Kamal Nasrollahi, Fahad Shahbaz Khan,
Thomas B. Moeslund, Mubarak Shah
- Abstract要約: 自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
- 参考スコア(独自算出の注目度): 108.57862846523858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A self-supervised multi-task learning (SSMTL) framework for video anomaly
detection was recently introduced in literature. Due to its highly accurate
results, the method attracted the attention of many researchers. In this work,
we revisit the self-supervised multi-task learning framework, proposing several
updates to the original method. First, we study various detection methods, e.g.
based on detecting high-motion regions using optical flow or background
subtraction, since we believe the currently used pre-trained YOLOv3 is
suboptimal, e.g. objects in motion or objects from unknown classes are never
detected. Second, we modernize the 3D convolutional backbone by introducing
multi-head self-attention modules, inspired by the recent success of vision
transformers. As such, we alternatively introduce both 2D and 3D convolutional
vision transformer (CvT) blocks. Third, in our attempt to further improve the
model, we study additional self-supervised learning tasks, such as predicting
segmentation maps through knowledge distillation, solving jigsaw puzzles,
estimating body pose through knowledge distillation, predicting masked regions
(inpainting), and adversarial learning with pseudo-anomalies. We conduct
experiments to assess the performance impact of the introduced changes. Upon
finding more promising configurations of the framework, dubbed SSMTL++v1 and
SSMTL++v2, we extend our preliminary experiments to more data sets,
demonstrating that our performance gains are consistent across all data sets.
In most cases, our results on Avenue, ShanghaiTech and UBnormal raise the
state-of-the-art performance to a new level.
- Abstract(参考訳): 近年,ビデオ異常検出のための自己教師型マルチタスク学習(SSMTL)フレームワークが文献で紹介されている。
精度の高い結果から、この手法は多くの研究者の注目を集めた。
本研究では,自己教師付きマルチタスク学習フレームワークを再検討し,元のメソッドの更新を複数提案する。
まず,光流や背景サブトラクションを用いた高動き領域の検出などにより,現在使用中のyolov3は準最適,例えば動作中の物体や未知のクラスの物体は検出されないため,様々な検出方法を検討した。
第2に,視覚トランスフォーマーの成功に触発されたマルチヘッド自己照準モジュールの導入により,3次元畳み込みバックボーンの近代化を行う。
そこで, 2D と 3D の畳み込み型視覚変換器 (CvT) ブロックを導入する。
第三に, モデルをさらに改善しようとする試みとして, 知識蒸留によるセグメンテーションマップの予測, ジグソーパズルの解法, 知識蒸留によるボディポーズの推定, マスク領域の予測(インペインティング), 擬似異常による逆学習など, 自己教師あり学習タスクについて検討した。
導入した変更のパフォーマンスへの影響を評価する実験を行う。
SSMTL++v1 と SSMTL++v2 と呼ばれるフレームワークのより有望な構成を見つけると、予備的な実験をより多くのデータセットに拡張し、パフォーマンス向上がすべてのデータセットで一貫していることを示します。
ほとんどの場合、アベニュー、上海テック、UBnormalの成果は最先端のパフォーマンスを新たなレベルに引き上げます。
関連論文リスト
- ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - Supervising Remote Sensing Change Detection Models with 3D Surface
Semantics [1.8782750537161614]
光RGBと地上レベル(AGL)マップペアを用いた共同学習のためのコントラスト表面画像事前学習(CSIP)を提案する。
次に、これらの事前訓練されたモデルをいくつかの建物セグメンテーションおよび変更検出データセット上で評価し、実際に、下流アプリケーションに関連する特徴を抽出することを示す。
論文 参考訳(メタデータ) (2022-02-26T23:35:43Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Static-Dynamic Co-Teaching for Class-Incremental 3D Object Detection [71.18882803642526]
ディープラーニングアプローチは、3Dオブジェクト検出タスクにおいて顕著なパフォーマンスを示している。
古いデータを再考することなく、新しいクラスを漸進的に学習するときに、破滅的なパフォーマンス低下に悩まされる。
この「破滅的な忘れ物」現象は、現実世界のシナリオにおける3Dオブジェクト検出アプローチの展開を妨げる。
SDCoTは,新しい静的なコティーチング手法である。
論文 参考訳(メタデータ) (2021-12-14T09:03:41Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z) - MS$^2$L: Multi-Task Self-Supervised Learning for Skeleton Based Action
Recognition [36.74293548921099]
動作予測,ジグソーパズル認識,コントラスト学習を統合し,異なる側面から骨格の特徴を学習する。
NW-UCLA, NTU RGB+D, PKUMMDデータセットを用いた実験は, 行動認識における顕著な性能を示した。
論文 参考訳(メタデータ) (2020-10-12T11:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。