論文の概要: Sound event localization and classification using WASN in Outdoor Environment
- arxiv url: http://arxiv.org/abs/2403.20130v1
- Date: Fri, 29 Mar 2024 11:44:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:54:04.646416
- Title: Sound event localization and classification using WASN in Outdoor Environment
- Title(参考訳): 屋外環境におけるWASNを用いた音事象の定位と分類
- Authors: Dongzhe Zhang, Jianfeng Chen, Jisheng Bai, Mou Wang,
- Abstract要約: 音声イベントのローカライゼーションと分類の方法は、通常は単一のマイクロホンアレイに依存する。
音源の位置とクラスを推定するために,複数の特徴と注意機構を用いた深層学習に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 2.234738672139924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based sound event localization and classification is an emerging research area within wireless acoustic sensor networks. However, current methods for sound event localization and classification typically rely on a single microphone array, making them susceptible to signal attenuation and environmental noise, which limits their monitoring range. Moreover, methods using multiple microphone arrays often focus solely on source localization, neglecting the aspect of sound event classification. In this paper, we propose a deep learning-based method that employs multiple features and attention mechanisms to estimate the location and class of sound source. We introduce a Soundmap feature to capture spatial information across multiple frequency bands. We also use the Gammatone filter to generate acoustic features more suitable for outdoor environments. Furthermore, we integrate attention mechanisms to learn channel-wise relationships and temporal dependencies within the acoustic features. To evaluate our proposed method, we conduct experiments using simulated datasets with different levels of noise and size of monitoring areas, as well as different arrays and source positions. The experimental results demonstrate the superiority of our proposed method over state-of-the-art methods in both sound event classification and sound source localization tasks. And we provide further analysis to explain the reasons for the observed errors.
- Abstract(参考訳): 深層学習に基づく音響イベントの局所化と分類は、無線音響センサネットワークにおける新たな研究領域である。
しかし、現在の音声イベントのローカライゼーションと分類法は、通常は単一のマイクロホンアレイに依存しており、信号減衰や環境騒音の影響を受けやすいため、監視範囲を制限している。
さらに、複数のマイクロホンアレイを用いる手法は、音事象分類の側面を無視して、ソースのローカライゼーションにのみ焦点をあてることが多い。
本稿では,複数の特徴と注意機構を用いて音源の位置とクラスを推定する深層学習手法を提案する。
複数の周波数帯域にまたがる空間情報をキャプチャするSoundmap機能を導入する。
また,Gammatoneフィルタを用いて,屋外環境に適した音響特性を生成する。
さらに,アコースティックな特徴の中でチャネル関係や時間的依存を学習するための注意機構を統合する。
提案手法を評価するために,異なるノイズレベルと監視領域の大きさのシミュレーションデータセットと,異なる配列とソース位置を用いて実験を行った。
実験により,提案手法の音響事象分類および音源定位作業における最先端手法よりも優れていることを示す。
そして、さらに分析を行い、観測された誤りの理由を説明します。
関連論文リスト
- Audio Simulation for Sound Source Localization in Virtual Evironment [0.0]
信号遮断環境における非視線局所化は、難しいが関連する問題である。
本研究では,物理基底音の伝搬シミュレーションと機械学習手法を利用して,仮想環境内の特定の場所に音源を配置することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T03:18:28Z) - Attention-Driven Multichannel Speech Enhancement in Moving Sound Source
Scenarios [11.811571392419324]
音声強調アルゴリズムは典型的に静止音源を仮定するが、これは現実との共通のミスマッチであり、現実のシナリオではその性能を制限している。
本稿では,動的設定のための注意駆動型空間フィルタリング技術について述べる。
論文 参考訳(メタデータ) (2023-12-17T16:12:35Z) - Unsupervised Acoustic Scene Mapping Based on Acoustic Features and
Dimensionality Reduction [18.641610823584433]
データの自然な構造を生かした教師なしのデータ駆動型アプローチを導入する。
本手法は,実測値から標準データ座標を学習するためのオフライン深層学習方式であるローカル共形オートエンコーダ(LOCA)に基づいて構築する。
論文 参考訳(メタデータ) (2023-01-01T17:46:09Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - A Review of Sound Source Localization with Deep Learning Methods [71.18444724397486]
本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。
この文脈におけるニューラルネットワークを用いた局所化文献の網羅的なトポグラフィーを提供する。
文献レビューを要約したテーブルをレビューの最後に提供し、所定の対象特性のセットでメソッドを素早く検索する。
論文 参考訳(メタデータ) (2021-09-08T07:25:39Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。