論文の概要: Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization
- arxiv url: http://arxiv.org/abs/2103.00417v1
- Date: Sun, 28 Feb 2021 07:52:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 15:46:15.413609
- Title: Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization
- Title(参考訳): 音響イベントローカリゼーションのための注意に基づくシーケンス・トゥ・シークエンスアーキテクチャの探索
- Authors: Christopher Schymura, Tsubasa Ochiai, Marc Delcroix, Keisuke
Kinoshita, Tomohiro Nakatani, Shoko Araki, Dorothea Kolossa
- Abstract要約: 本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
- 参考スコア(独自算出の注目度): 113.19483349876668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sound event localization frameworks based on deep neural networks have shown
increased robustness with respect to reverberation and noise in comparison to
classical parametric approaches. In particular, recurrent architectures that
incorporate temporal context into the estimation process seem to be well-suited
for this task. This paper proposes a novel approach to sound event localization
by utilizing an attention-based sequence-to-sequence model. These types of
models have been successfully applied to problems in natural language
processing and automatic speech recognition. In this work, a multi-channel
audio signal is encoded to a latent representation, which is subsequently
decoded to a sequence of estimated directions-of-arrival. Herein, attentions
allow for capturing temporal dependencies in the audio signal by focusing on
specific frames that are relevant for estimating the activity and
direction-of-arrival of sound events at the current time-step. The framework is
evaluated on three publicly available datasets for sound event localization. It
yields superior localization performance compared to state-of-the-art methods
in both anechoic and reverberant conditions.
- Abstract(参考訳): ディープニューラルネットワークに基づく音響事象定位フレームワークは、古典的パラメトリックアプローチと比較して、残響や雑音に対する頑健性が向上している。
特に、時間的コンテキストを推定プロセスに組み込んだ繰り返しアーキテクチャは、このタスクに適しているように思われる。
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
このようなモデルは、自然言語処理や自動音声認識の問題にうまく適用されている。
本研究では、マルチチャンネルオーディオ信号を潜入表現に符号化し、その後、推定される到着方向の列に復号する。
ここで注意は、現在の時間ステップにおける音声イベントのアクティビティと方向の推定に関連する特定のフレームに注目して、音声信号の時間依存性を捉えることを可能にする。
このフレームワークは、サウンドイベントローカライズのための3つの公開データセットで評価される。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
関連論文リスト
- DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - DCASE 2021 Task 3: Spectrotemporally-aligned Features for Polyphonic
Sound Event Localization and Detection [16.18806719313959]
本稿では,信号パワーと音源方向の正確な時間周波数マッピングが可能な空間キュー拡張対数分光法(SALSA)を提案する。
この新機能で訓練されたディープラーニングベースのモデルでは,DCASEチャレンジのベースラインを大きなマージンで上回りました。
論文 参考訳(メタデータ) (2021-06-29T09:18:30Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。