論文の概要: AVAR-Net: A Lightweight Audio-Visual Anomaly Recognition Framework with a Benchmark Dataset
- arxiv url: http://arxiv.org/abs/2510.13630v1
- Date: Wed, 15 Oct 2025 14:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.722129
- Title: AVAR-Net: A Lightweight Audio-Visual Anomaly Recognition Framework with a Benchmark Dataset
- Title(参考訳): AVAR-Net:ベンチマークデータセットを用いた軽量オーディオ視覚異常認識フレームワーク
- Authors: Amjid Ali, Zulfiqar Ahmad Khan, Altaf Hussain, Muhammad Munsif, Adnan Hussain, Sung Wook Baik,
- Abstract要約: 異常認識は、監視、交通、医療、公衆安全において重要な役割を担っている。
既存のアプローチは視覚データのみに依存しており、困難な状況下では信頼できない。
大規模な同期音声-視覚の欠如は、マルチモーダルな異常認識の進展を妨げている。
- 参考スコア(独自算出の注目度): 11.179608136803447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anomaly recognition plays a vital role in surveillance, transportation, healthcare, and public safety. However, most existing approaches rely solely on visual data, making them unreliable under challenging conditions such as occlusion, low illumination, and adverse weather. Moreover, the absence of large-scale synchronized audio-visual datasets has hindered progress in multimodal anomaly recognition. To address these limitations, this study presents AVAR-Net, a lightweight and efficient audio-visual anomaly recognition framework designed for real-world environments. AVAR-Net consists of four main modules: an audio feature extractor, a video feature extractor, fusion strategy, and a sequential pattern learning network that models cross-modal relationships for anomaly recognition. Specifically, the Wav2Vec2 model extracts robust temporal features from raw audio, while MobileViT captures both local and global visual representations from video frames. An early fusion mechanism combines these modalities, and a Multi-Stage Temporal Convolutional Network (MTCN) model that learns long-range temporal dependencies within the fused representation, enabling robust spatiotemporal reasoning. A novel Visual-Audio Anomaly Recognition (VAAR) dataset, is also introduced, serving as a medium-scale benchmark containing 3,000 real-world videos with synchronized audio across ten diverse anomaly classes. Experimental evaluations demonstrate that AVAR-Net achieves 89.29% accuracy on VAAR and 88.56% Average Precision on the XD-Violence dataset, improving Average Precision by 2.8% over existing state-of-the-art methods. These results highlight the effectiveness, efficiency, and generalization capability of the proposed framework, as well as the utility of VAAR as a benchmark for advancing multimodal anomaly recognition research.
- Abstract(参考訳): 異常認識は、監視、交通、医療、公衆安全において重要な役割を担っている。
しかし、既存のほとんどのアプローチは視覚データにのみ依存しており、閉塞、照明の低さ、悪天候といった困難な条件下では信頼できない。
さらに,大規模同期音声視覚データセットの欠如は,マルチモーダルな異常認識の進展を妨げている。
これらの制約に対処するために,実環境向けに設計された軽量かつ効率的な音声視覚異常認識フレームワークであるAVAR-Netを提案する。
AVAR-Netは、オーディオ特徴抽出器、ビデオ特徴抽出器、融合戦略、および異常認識のための相互モーダル関係をモデル化するシーケンシャルパターン学習ネットワークの4つの主要モジュールから構成される。
具体的には、Wav2Vec2モデルは生のオーディオから堅牢な時間的特徴を抽出し、MobileViTはビデオフレームからローカルとグローバルの両方の視覚的表現をキャプチャする。
初期の融合機構はこれらのモダリティと、融合表現内の長距離時間依存性を学習し、堅牢な時空間推論を可能にするマルチステージ時空間畳み込みネットワーク(MTCN)モデルを組み合わせる。
新たなVisual-Audio Anomaly Recognition (VAAR)データセットも導入され、10つの多様な異常クラスで同期オーディオを備えた3,000の実世界のビデオを含む中規模ベンチマークとして機能している。
AVAR-NetはVAARで89.29%、XD-Violenceデータセットで88.56%の精度を達成し、既存の最先端手法よりも平均精度を2.8%向上した。
これらの結果は,提案フレームワークの有効性,効率,一般化能力,およびマルチモーダル異常認識研究の進展のためのベンチマークとしてのVAARの有用性を強調した。
関連論文リスト
- ERF-BA-TFD+: A Multimodal Model for Audio-Visual Deepfake Detection [49.14187862877009]
本稿では,ERFと音声-視覚融合を組み合わせた新しいディープフェイク検出モデルであるERF-BA-TFD+を提案する。
我々のモデルは音声と映像の両方の特徴を同時に処理し、その相補的な情報を活用して検出精度とロバスト性を向上させる。
本研究では,DDL-AVデータセット上でのRF-BA-TFD+の評価を行った。
論文 参考訳(メタデータ) (2025-08-24T10:03:46Z) - Lightweight Joint Audio-Visual Deepfake Detection via Single-Stream Multi-Modal Learning Framework [19.53717894228692]
DeepfakesはAI合成マルチメディアデータで、誤情報を拡散するために悪用される可能性がある。
単一ストリームマルチモーダル学習フレームワークを用いた音声・視覚的ディープフェイク検出のための軽量ネットワークを提案する。
提案手法は非常に軽量であり,パラメータは0.48Mに留まるが,ユニモーダルとマルチモーダルの両方のディープフェイクに優れる。
論文 参考訳(メタデータ) (2025-06-09T02:13:04Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Multimodal Attention-Enhanced Feature Fusion-based Weekly Supervised Anomaly Violence Detection [1.9223495770071632]
このシステムは、RGBビデオ、光フロー、オーディオ信号の3つの特徴ストリームを使用し、それぞれのストリームが相補的な空間的特徴と時間的特徴を抽出する。
このシステムは3つのデータセットの異常検出精度とロバスト性を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-17T14:17:52Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - End-To-End Audiovisual Feature Fusion for Active Speaker Detection [7.631698269792165]
本研究は,VGG-Mによる画像から抽出した特徴と,音声波形から抽出したMel周波数Cepstrum係数とを融合した新しい2ストリームエンドツーエンドフレームワークを提案する。
我々の最高の性能モデルは88.929%の精度を達成した。
論文 参考訳(メタデータ) (2022-07-27T10:25:59Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。