論文の概要: Learning Multi-Target TDOA Features for Sound Event Localization and Detection
- arxiv url: http://arxiv.org/abs/2408.17166v1
- Date: Fri, 30 Aug 2024 10:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 15:48:34.338839
- Title: Learning Multi-Target TDOA Features for Sound Event Localization and Detection
- Title(参考訳): 音場定位・検出のためのマルチターゲットTDOA特徴の学習
- Authors: Axel Berg, Johanna Engman, Jens Gulin, Karl Åström, Magnus Oskarsson,
- Abstract要約: 本稿では,位相変換(NGCC-PHAT)を用いたニューラル一般化相互相関に基づく,局所化に適した音声表現を学習する新機能を提案する。
提案手法をSTARSS23データセット上でテストし,標準GCC-PHAT や SALSA-Lite の入力機能と比較して,ローカライズ性能の向上を実証した。
- 参考スコア(独自算出の注目度): 11.193111023459803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sound event localization and detection (SELD) systems using audio recordings from a microphone array rely on spatial cues for determining the location of sound events. As a consequence, the localization performance of such systems is to a large extent determined by the quality of the audio features that are used as inputs to the system. We propose a new feature, based on neural generalized cross-correlations with phase-transform (NGCC-PHAT), that learns audio representations suitable for localization. Using permutation invariant training for the time-difference of arrival (TDOA) estimation problem enables NGCC-PHAT to learn TDOA features for multiple overlapping sound events. These features can be used as a drop-in replacement for GCC-PHAT inputs to a SELD-network. We test our method on the STARSS23 dataset and demonstrate improved localization performance compared to using standard GCC-PHAT or SALSA-Lite input features.
- Abstract(参考訳): マイクロホンアレイからの音声記録を用いた音事象の定位・検出(SELD)システムは、音事象の位置を決定するための空間的手がかりに依存している。
その結果、このようなシステムのローカライズ性能は、システムへの入力として使用される音声特徴の品質によって決定される。
本稿では,位相変換(NGCC-PHAT)を用いたニューラル一般化相互相関に基づく,局所化に適した音声表現を学習する新機能を提案する。
NGCC-PHATは,複数重重畳音事象に対するTDOA特徴を学習することができる。
これらの機能は、SELD-networkへのGCC-PHAT入力のドロップイン代替として使用することができる。
提案手法をSTARSS23データセット上でテストし,標準GCC-PHAT や SALSA-Lite の入力機能と比較して,ローカライズ性能の向上を実証した。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Exploring Self-Supervised Contrastive Learning of Spatial Sound Event
Representation [21.896817015593122]
MC-SimCLRは、ラベルのない空間オーディオから、共同スペクトルと空間表現を学習する。
本稿では,様々なレベルの音声特徴を付加するマルチレベルデータ拡張パイプラインを提案する。
その結果,学習表現上の線形層は,事象分類精度と局所化誤差の両方の観点から,教師付きモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-27T18:23:03Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - DCASE 2021 Task 3: Spectrotemporally-aligned Features for Polyphonic
Sound Event Localization and Detection [16.18806719313959]
本稿では,信号パワーと音源方向の正確な時間周波数マッピングが可能な空間キュー拡張対数分光法(SALSA)を提案する。
この新機能で訓練されたディープラーニングベースのモデルでは,DCASEチャレンジのベースラインを大きなマージンで上回りました。
論文 参考訳(メタデータ) (2021-06-29T09:18:30Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - C-SL: Contrastive Sound Localization with Inertial-Acoustic Sensors [5.101801159418222]
任意の幾何形状の移動慣性音響センサアレイを用いたコントラスト音像定位(C-SL)を導入する。
C-SLは、音響測定から、自己教師された方法でアレイ中心の方向へのマッピングを学習する。
我々は、C-SLが提供する緩やかな校正プロセスが、真のパーソナライズされた補聴器アプリケーションへの道を開くと信じている。
論文 参考訳(メタデータ) (2020-06-09T06:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。