論文の概要: Hierarchical Semantic Contrast for Scene-aware Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2303.13051v1
- Date: Thu, 23 Mar 2023 05:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 15:32:43.884173
- Title: Hierarchical Semantic Contrast for Scene-aware Video Anomaly Detection
- Title(参考訳): シーン認識ビデオ異常検出のための階層的セマンティックコントラスト
- Authors: Shengyang Sun, Xiaojin Gong
- Abstract要約: 本研究では,通常のビデオからシーン認識型VADモデルを学習するための階層的意味コントラスト(HSC)手法を提案する。
この階層的なセマンティックコントラスト戦略は、通常のパターンの多様性に対処し、識別能力を高めるのに役立つ。
- 参考スコア(独自算出の注目度): 14.721615285883423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increasing scene-awareness is a key challenge in video anomaly detection
(VAD). In this work, we propose a hierarchical semantic contrast (HSC) method
to learn a scene-aware VAD model from normal videos. We first incorporate
foreground object and background scene features with high-level semantics by
taking advantage of pre-trained video parsing models. Then, building upon the
autoencoder-based reconstruction framework, we introduce both scene-level and
object-level contrastive learning to enforce the encoded latent features to be
compact within the same semantic classes while being separable across different
classes. This hierarchical semantic contrast strategy helps to deal with the
diversity of normal patterns and also increases their discrimination ability.
Moreover, for the sake of tackling rare normal activities, we design a
skeleton-based motion augmentation to increase samples and refine the model
further. Extensive experiments on three public datasets and scene-dependent
mixture datasets validate the effectiveness of our proposed method.
- Abstract(参考訳): シーン認識の増大は,ビデオ異常検出(vad)において重要な課題である。
本研究では,通常のビデオからシーン認識型VADモデルを学習するための階層的意味コントラスト(HSC)手法を提案する。
まず,事前学習されたビデオ解析モデルを利用して,前景オブジェクトと背景シーンの機能を高レベルセマンティクスに組み込む。
次に、オートエンコーダに基づく再構成フレームワークを構築し、シーンレベルとオブジェクトレベルのコントラスト学習の両方を導入し、異なるクラス間で分離可能ながら、同じセマンティッククラス内でコンパクトなエンコードされた潜在機能を強制する。
この階層的なセマンティックコントラスト戦略は、通常のパターンの多様性に対処し、識別能力を高めるのに役立つ。
さらに, 希少な正常な活動に取り組むために, スケルトンに基づく運動増強をデザインし, 試料を増加させ, モデルをさらに洗練する。
3つの公開データセットとシーン依存混合データセットの大規模な実験により,提案手法の有効性が検証された。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - Building a Strong Pre-Training Baseline for Universal 3D Large-Scale Perception [41.77153804695413]
汎用的な3D表現を備えた効果的な事前学習フレームワークは、大規模な動的シーンを知覚するのに非常に望ましい。
本研究では,シーンレベルのセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマン
論文 参考訳(メタデータ) (2024-05-12T07:58:52Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。