論文の概要: PILOT: Introducing Transformers for Probabilistic Sound Event
Localization
- arxiv url: http://arxiv.org/abs/2106.03903v1
- Date: Mon, 7 Jun 2021 18:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 15:35:10.191297
- Title: PILOT: Introducing Transformers for Probabilistic Sound Event
Localization
- Title(参考訳): パイロット:確率的音イベント定位のためのトランスフォーマーの導入
- Authors: Christopher Schymura, Benedikt B\"onninghoff, Tsubasa Ochiai, Marc
Delcroix, Keisuke Kinoshita, Tomohiro Nakatani, Shoko Araki, Dorothea Kolossa
- Abstract要約: 本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
- 参考スコア(独自算出の注目度): 107.78964411642401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sound event localization aims at estimating the positions of sound sources in
the environment with respect to an acoustic receiver (e.g. a microphone array).
Recent advances in this domain most prominently focused on utilizing deep
recurrent neural networks. Inspired by the success of transformer architectures
as a suitable alternative to classical recurrent neural networks, this paper
introduces a novel transformer-based sound event localization framework, where
temporal dependencies in the received multi-channel audio signals are captured
via self-attention mechanisms. Additionally, the estimated sound event
positions are represented as multivariate Gaussian variables, yielding an
additional notion of uncertainty, which many previously proposed deep
learning-based systems designed for this application do not provide. The
framework is evaluated on three publicly available multi-source sound event
localization datasets and compared against state-of-the-art methods in terms of
localization error and event detection accuracy. It outperforms all competing
systems on all datasets with statistical significant differences in
performance.
- Abstract(参考訳): 音のイベントの定位は,環境中の音源の位置を音響受信機に対して推定することを目的としている(例)。
マイクロホンアレイ)。
この領域の最近の進歩は、ディープリカレントニューラルネットワークの利用に焦点を当てている。
本稿では,従来のリカレントニューラルネットワークの代替手段としてのトランスフォーマーアーキテクチャの成功に触発されて,受信したマルチチャンネル音声信号の時間的依存性を自己認識機構によってキャプチャする,トランスフォーマーベースの音声イベントローカライゼーションフレームワークを提案する。
さらに、推定音声事象位置は多変量ガウス変数として表現され、従来提案されていた深層学習に基づくシステムでは提供されない不確実性の概念が付加される。
このフレームワークは3つの公開ソース音声イベントローカライズデータセット上で評価され、ローカライズエラーとイベント検出精度の観点から最先端の手法と比較される。
これは全てのデータセット上の競合するシステムにおいて、統計的にパフォーマンスに有意な違いがある。
関連論文リスト
- Sound event localization and classification using WASN in Outdoor Environment [2.234738672139924]
音声イベントのローカライゼーションと分類の方法は、通常は単一のマイクロホンアレイに依存する。
音源の位置とクラスを推定するために,複数の特徴と注意機構を用いた深層学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T11:44:14Z) - A unified multichannel far-field speech recognition system: combining
neural beamforming with attention based end-to-end model [14.795953417531907]
本稿では,ニューラルビームフォーミングとトランスフォーマーをベースとしたリステン,スペル,アトンド(LAS)音声認識システムを組み合わせた多チャンネル遠距離音声認識システムを提案する。
提案手法は, 強いベースラインに比べて19.26%向上した。
論文 参考訳(メタデータ) (2024-01-05T07:11:13Z) - Acoustic-Net: A Novel Neural Network for Sound Localization and
Quantification [28.670240455952317]
アコースティックネットと呼ばれる新しいニューラルネットワークが提案され、音源の特定と定量化が可能である。
実験により,提案手法は音源予測の精度と計算速度を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2022-03-31T12:20:09Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。