論文の概要: From Large-scale Audio Tagging to Real-Time Explainable Emergency Vehicle Sirens Detection
- arxiv url: http://arxiv.org/abs/2506.23437v1
- Date: Mon, 30 Jun 2025 00:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.875423
- Title: From Large-scale Audio Tagging to Real-Time Explainable Emergency Vehicle Sirens Detection
- Title(参考訳): 大規模オーディオタギングからリアルタイム説明可能な緊急車両サイレン検出へ
- Authors: Stefano Giacomelli, Marco Giordano, Claudia Rinaldi, Fabio Graziosi,
- Abstract要約: この研究は、バイナリEVサイレン検出のための軽量畳み込みニューラルネットワークアーキテクチャであるE2PANN(Efficient Emergency Pre trained Audio Neural Networks)を導入している。
複数の参照データセットにまたがってE2PANNを微調整し、評価し、組込みハードウェア上でその生存性をテストする。
その結果、E2PANNは、高い計算効率とエッジベースのオーディオ監視と安全クリティカルなアプリケーションに適した、この研究領域における新しい最先端技術を確立することが示されている。
- 参考スコア(独自算出の注目度): 0.26249027950824516
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate recognition of Emergency Vehicle (EV) sirens is critical for the integration of intelligent transportation systems, smart city monitoring systems, and autonomous driving technologies. Modern automatic solutions are limited by the lack of large scale, curated datasets and by the computational demands of state of the art sound event detection models. This work introduces E2PANNs (Efficient Emergency Pre trained Audio Neural Networks), a lightweight Convolutional Neural Network architecture derived from the PANNs framework, specifically optimized for binary EV siren detection. Leveraging our dedicated subset of AudioSet (AudioSet EV) we fine-tune and evaluate E2PANNs across multiple reference datasets and test its viability on embedded hardware. The experimental campaign includes ablation studies, cross-domain benchmarking, and real-time inference deployment on edge device. Interpretability analyses exploiting Guided Backpropagation and ScoreCAM algorithms provide insights into the model internal representations and validate its ability to capture distinct spectrotemporal patterns associated with different types of EV sirens. Real time performance is assessed through frame wise and event based detection metrics, as well as a detailed analysis of false positive activations. Results demonstrate that E2PANNs establish a new state of the art in this research domain, with high computational efficiency, and suitability for edge-based audio monitoring and safety-critical applications.
- Abstract(参考訳): 緊急車両(EV)サイレンの正確な認識は、インテリジェント交通システム、スマートシティ監視システム、自動運転技術の統合に不可欠である。
現代の自動解法は、大規模でキュレートされたデータセットの欠如と、最先端の音声イベント検出モデルの計算要求によって制限されている。
E2PANNs (Efficient Emergency Pre trained Audio Neural Networks)は、PANNsフレームワークから派生した軽量な畳み込みニューラルネットワークアーキテクチャで、特にバイナリEVサイレン検出に最適化されている。
AudioSet(AudioSet EV)の専用サブセットを活用して、複数の参照データセットにわたってE2PANNを微調整し、評価し、組込みハードウェア上でその生存性をテストする。
実験には、アブレーション研究、クロスドメインベンチマーク、エッジデバイスへのリアルタイム推論デプロイメントが含まれる。
Guided BackpropagationとScoreCAMアルゴリズムを利用した解釈可能性分析は、モデルの内部表現に関する洞察を提供し、異なるタイプのEVサイレンに関連する異なる分光時間パターンを捕捉する能力を検証する。
実時間性能は、フレームワイズとイベントベース検出メトリクス、および偽陽性アクティベーションの詳細な分析によって評価される。
その結果、E2PANNは、高い計算効率とエッジベースのオーディオ監視と安全クリティカルなアプリケーションに適した、新しい最先端の技術をこの研究領域に確立していることが示されている。
関連論文リスト
- Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Real-Time Pedestrian Detection on IoT Edge Devices: A Lightweight Deep Learning Approach [1.4732811715354455]
本研究では,AIoT(Artificial Intelligence of Things)エッジデバイス上での軽量ディープラーニングモデルの実装について検討する。
You Only Look Once (YOLO)ベースのDLモデルは、リアルタイムな歩行者検出のためにデプロイされる。
シミュレーションの結果、最適化されたYOLOモデルは、高速な推論速度147ミリ秒、フレームレート2.3フレーム/秒、精度78%でリアルタイムな歩行者検出を実現できることが示された。
論文 参考訳(メタデータ) (2024-09-24T04:48:41Z) - A Real-Time Voice Activity Detection Based On Lightweight Neural [4.589472292598182]
音声活動検出(Voice Activity Detection, VAD)は、音声ストリーム中の音声を検出するタスクである。
最近のニューラルネットワークベースのVADでは、パフォーマンスの低下がある程度軽減されている。
我々は,カジュアルかつ深さ分離可能な1次元畳み込みとGRUを利用するMagicNetという,軽量でリアルタイムなニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T03:31:16Z) - Real-time Aerial Detection and Reasoning on Embedded-UAVs [3.0839245814393728]
本稿では,UAVの組込みシステム上でのリアルタイム検出システムのための統合パイプラインアーキテクチャを提案する。
このネットワークのパイプラインは、空中歩行者検出と活動認識に関するドメイン固有の知識を活用することができる。
論文 参考訳(メタデータ) (2023-05-21T09:43:17Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - A Multi-view CNN-based Acoustic Classification System for Automatic
Animal Species Identification [42.119250432849505]
無線音響センサネットワーク(WASN)のためのディープラーニングに基づく音響分類フレームワークを提案する。
提案フレームワークは,無線センサノードの計算負担を緩和するクラウドアーキテクチャに基づいている。
認識精度を向上させるために,多視点畳み込みニューラルネットワーク(CNN)を設計し,短期・中期・長期の依存関係を並列に抽出する。
論文 参考訳(メタデータ) (2020-02-23T03:51:08Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。