論文の概要: Audio-visual Representation Learning for Anomaly Events Detection in
Crowds
- arxiv url: http://arxiv.org/abs/2110.14862v1
- Date: Thu, 28 Oct 2021 02:42:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-30 07:37:12.023309
- Title: Audio-visual Representation Learning for Anomaly Events Detection in
Crowds
- Title(参考訳): 群衆における異常事象検出のための視聴覚表現学習
- Authors: Junyu Gao, Maoguo Gong, Xuelong Li
- Abstract要約: 本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
- 参考スコア(独自算出の注目度): 119.72951028190586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, anomaly events detection in crowd scenes attracts many
researchers' attention, because of its importance to public safety. Existing
methods usually exploit visual information to analyze whether any abnormal
events have occurred due to only visual sensors are generally equipped in
public places. However, when an abnormal event in crowds occurs, sound
information may be discriminative to assist the crowd analysis system to
determine whether there is an abnormality. Compare with vision information that
is easily occluded, audio signals have a certain degree of penetration. Thus,
this paper attempt to exploit multi-modal learning for modeling the audio and
visual signals simultaneously. To be specific, we design a two-branch network
to model different types of information. The first is a typical 3D CNN model to
extract temporal appearance features from video clips. The second is an audio
CNN for encoding Log Mel-Spectrogram of audio signals. Finally, by fusing the
above features, a more accurate prediction will be produced. We conduct the
experiments on SHADE dataset, a synthetic audio-visual dataset in surveillance
scenes, and find introducing audio signals effectively improves the performance
of anomaly events detection and outperforms other state-of-the-art methods.
Furthermore, we will release the code and the pre-trained models as soon as
possible.
- Abstract(参考訳): 近年,群衆シーンにおける異常事象の検出は,公衆の安全の重要性から,多くの研究者の注意を惹きつけている。
既存の手法は通常、視覚情報を利用して、視覚センサのみによる異常事象が一般に公共の場所で発生しているかどうかを分析する。
しかし, 群集に異常が発生した場合, 音響情報を識別して, 群集分析システムに異常があるかどうかを判断する。
難易度の高い視覚情報と比較すると、音声信号の浸透度は一定である。
そこで本稿では,音声と視覚信号の同時モデリングにマルチモーダル学習を活用する。
具体的には,異なるタイプの情報をモデル化する2分岐ネットワークを設計する。
1つ目は、ビデオクリップから時間的外観特徴を抽出する典型的な3D CNNモデルである。
2つ目は、音声信号のログメルスペクトログラムを符号化するオーディオcnnである。
最後に、上記の特徴を融合させることで、より正確な予測が生成される。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットを用いて実験を行い、音声信号の導入により異常事象の検出性能が向上し、他の最先端手法よりも優れることを示す。
さらに、できるだけ早く、コードと事前訓練されたモデルをリリースします。
関連論文リスト
- Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - AV-Lip-Sync+: Leveraging AV-HuBERT to Exploit Multimodal Inconsistency
for Video Deepfake Detection [32.502184301996216]
マルチモーダル操作(オーディオ・ヴィジュアル・ディープフェイクとも呼ばれる)は、一方的なディープフェイク検出器がマルチメディアコンテンツの偽造を検出するのを困難にしている。
従来は、一様ビデオ法則を主に採用し、教師付き事前訓練を用いて偽造検出を行った。
本研究では,マルチモーダル自己教師付き学習(SSL)機能抽出器に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-05T18:35:03Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Where and When: Space-Time Attention for Audio-Visual Explanations [42.093794819606444]
音声と視覚データの相乗的なダイナミクスを空間と時間の両方で明らかにする、新しい時空注目ネットワークを提案する。
本モデルでは,音声・視覚的映像イベントの予測を可能とし,関連する視覚的手がかりがどこに現れるのかをローカライズすることで,その決定を正当化する。
論文 参考訳(メタデータ) (2021-05-04T14:16:55Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - A Background-Agnostic Framework with Adversarial Training for Abnormal
Event Detection in Video [120.18562044084678]
近年,ビデオにおける異常事象検出は複雑なコンピュータビジョンの問題として注目されている。
通常のイベントのみを含むトレーニングビデオから学習するバックグラウンドに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-27T18:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。