論文の概要: Real-Time Emergency Vehicle Siren Detection with Efficient CNNs on Embedded Hardware
- arxiv url: http://arxiv.org/abs/2507.01563v1
- Date: Wed, 02 Jul 2025 10:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.148141
- Title: Real-Time Emergency Vehicle Siren Detection with Efficient CNNs on Embedded Hardware
- Title(参考訳): 組込みハードウェア上での効率的なCNNによるリアルタイム緊急車両サイレン検出
- Authors: Marco Giordano, Stefano Giacomelli, Claudia Rinaldi, Fabio Graziosi,
- Abstract要約: 組込みハードウェア上でのリアルタイム展開を目的としたフルスタック緊急車両サイレン検出システムを提案する。
提案手法はEPANNから派生した微細調整された畳み込みニューラルネットワークであるE2PANNsに基づいている。
リモートWebSocketインターフェースはリアルタイム監視を提供し、ライブデモ機能を容易にする。
- 参考スコア(独自算出の注目度): 0.26249027950824516
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a full-stack emergency vehicle (EV) siren detection system designed for real-time deployment on embedded hardware. The proposed approach is based on E2PANNs, a fine-tuned convolutional neural network derived from EPANNs, and optimized for binary sound event detection under urban acoustic conditions. A key contribution is the creation of curated and semantically structured datasets - AudioSet-EV, AudioSet-EV Augmented, and Unified-EV - developed using a custom AudioSet-Tools framework to overcome the low reliability of standard AudioSet annotations. The system is deployed on a Raspberry Pi 5 equipped with a high-fidelity DAC+microphone board, implementing a multithreaded inference engine with adaptive frame sizing, probability smoothing, and a decision-state machine to control false positive activations. A remote WebSocket interface provides real-time monitoring and facilitates live demonstration capabilities. Performance is evaluated using both framewise and event-based metrics across multiple configurations. Results show the system achieves low-latency detection with improved robustness under realistic audio conditions. This work demonstrates the feasibility of deploying IoS-compatible SED solutions that can form distributed acoustic monitoring networks, enabling collaborative emergency vehicle tracking across smart city infrastructures through WebSocket connectivity on low-cost edge devices.
- Abstract(参考訳): 組込みハードウェア上でのリアルタイム展開を目的とした完全スタック緊急車両(EV)サイレン検出システムを提案する。
提案手法はEPANNから派生した微細調整された畳み込みニューラルネットワークであるE2PANNsに基づいており、都市音環境下での2値の音響イベント検出に最適化されている。
主要なコントリビューションは、AudioSet-EV、AudioSet-EV拡張、Unified-EVという、キュレートされセマンティックに構造化されたデータセットの作成である。
高忠実度DAC+マイクロホンボードを備えたRaspberry Pi 5上に展開され、適応フレームサイズ、確率平滑化、偽陽性アクティベーションを制御するための決定状態マシンを備えたマルチスレッド推論エンジンを実装している。
リモートWebSocketインターフェースはリアルタイム監視を提供し、ライブデモ機能を容易にする。
パフォーマンスは、フレームワイドとイベントベースのメトリクスの両方を使用して、複数の構成で評価される。
その結果,現実的な音響条件下でのロバスト性の向上により低レイテンシ検出を実現した。
この研究は、分散音響監視ネットワークを形成することができるIoS互換のSEDソリューションをデプロイする可能性を示し、低コストのエッジデバイス上でWebSocket接続を通じてスマートシティインフラストラクチャを横断する共同緊急車両追跡を可能にする。
関連論文リスト
- From Large-scale Audio Tagging to Real-Time Explainable Emergency Vehicle Sirens Detection [0.26249027950824516]
この研究は、バイナリEVサイレン検出のための軽量畳み込みニューラルネットワークアーキテクチャであるE2PANN(Efficient Emergency Pre trained Audio Neural Networks)を導入している。
複数の参照データセットにまたがってE2PANNを微調整し、評価し、組込みハードウェア上でその生存性をテストする。
その結果、E2PANNは、高い計算効率とエッジベースのオーディオ監視と安全クリティカルなアプリケーションに適した、この研究領域における新しい最先端技術を確立することが示されている。
論文 参考訳(メタデータ) (2025-06-30T00:21:07Z) - Towards the Development of a Real-Time Deepfake Audio Detection System in Communication Platforms [0.5850093728139567]
ディープフェイクオーディオは、音声ストリームの整合性のためにリアルタイム検出を必要とする通信プラットフォームにおいて、ますます脅威となる。
本研究では,リアルタイム通信プラットフォームにおける静的ディープフェイク音声検出モデルの適用可能性を評価する。
ResnetとLCNNアーキテクチャに基づく2つのディープフェイク音声検出モデルを実装した。
論文 参考訳(メタデータ) (2024-03-18T13:35:10Z) - Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Audio Tagging on an Embedded Hardware Platform [20.028643659869573]
Raspberry Piなどのハードウェアにデプロイした場合,大規模な事前学習型オーディオニューラルネットワークの性能がどう変化するかを分析する。
実験の結果,連続したCPU使用量によって温度が上昇し,自動減速機構が起動できることが判明した。
マイクの品質、特にGoogle AIY Voice Kitのような安価なデバイスや音声信号のボリュームは、システムのパフォーマンスに影響を与えます。
論文 参考訳(メタデータ) (2023-06-15T13:02:41Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。