論文の概要: Audio-Visual Dataset and Method for Anomaly Detection in Traffic Videos
- arxiv url: http://arxiv.org/abs/2305.15084v1
- Date: Wed, 24 May 2023 12:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:08:06.812772
- Title: Audio-Visual Dataset and Method for Anomaly Detection in Traffic Videos
- Title(参考訳): 交通映像の異常検出のためのオーディオ・ビジュアルデータセットと方法
- Authors: B{\l}a\.zej Leporowski, Arian Bakhtiarnia, Nicole Bonnici, Adrian
Muscat, Luca Zanella, Yiming Wang and Alexandros Iosifidis
- Abstract要約: そこで本研究では,MAVADと呼ばれる実世界のシーンから得られたトラフィック異常検出のための最初の音声視覚データセットについて紹介する。
本稿では,映像系列から抽出した視覚的特徴と音声的特徴をクロスアテンションを用いて組み合わせ,異常を検出するAVACAという手法を提案する。
- 参考スコア(独自算出の注目度): 81.10098876541322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the first audio-visual dataset for traffic anomaly detection
taken from real-world scenes, called MAVAD, with a diverse range of weather and
illumination conditions. In addition, we propose a novel method named AVACA
that combines visual and audio features extracted from video sequences by means
of cross-attention to detect anomalies. We demonstrate that the addition of
audio improves the performance of AVACA by up to 5.2%. We also evaluate the
impact of image anonymization, showing only a minor decrease in performance
averaging at 1.7%.
- Abstract(参考訳): 我々は,MAVADと呼ばれる実世界のシーンから得られる交通異常検出のための,多様な気象条件と照明条件を備えた最初の音声視覚データセットを提案する。
さらに,映像系列から抽出した視覚的特徴と音声的特徴をクロスアテンションを用いて組み合わせ,異常を検出するAVACAという手法を提案する。
オーディオの追加により,AVACAの性能が最大5.2%向上することが実証された。
また,画像の匿名化の影響も評価し,平均的な性能低下は1.7%であった。
関連論文リスト
- AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - MANet: Improving Video Denoising with a Multi-Alignment Network [72.93429911044903]
本稿では,複数フローの提案とアテンションに基づく平均化を行うマルチアライメントネットワークを提案する。
大規模ビデオデータセットを用いた実験により,本手法は調音ベースラインモデルを0.2dBで改善することを示した。
論文 参考訳(メタデータ) (2022-02-20T00:52:07Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z) - Robust Unsupervised Multi-Object Tracking in Noisy Environments [5.409476600348953]
頑健なマルチオブジェクト追跡(MOT)モデルである AttU-Net を導入する。
提案したシングルヘッドアテンションモデルは、異なるセグメントスケールでの視覚的表現を学習することで、ノイズの負の影響を制限するのに役立つ。
本手法をMNISTとAtariゲームビデオベンチマークで評価する。
論文 参考訳(メタデータ) (2021-05-20T19:38:03Z) - An Efficient Approach for Anomaly Detection in Traffic Videos [30.83924581439373]
本稿では,エッジデバイスで動作可能な映像異常検出システムのための効率的な手法を提案する。
提案手法は,シーンの変化を検出し,破損したフレームを除去するプリプロセッシングモジュールを含む。
また,新しいシーンに迅速に適応し,類似度統計量の変化を検出するシーケンシャルな変化検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-20T04:43:18Z) - A Multi-View Approach To Audio-Visual Speaker Verification [38.9710777250597]
本研究では,音声視覚による話者検証手法について検討する。
voxceleb1データセットの最低av等しいエラーレート(eer)は0.7%である。
この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
論文 参考訳(メタデータ) (2021-02-11T22:29:25Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。