論文の概要: Mask-Weighted Spatial Likelihood Coding for Speaker-Independent Joint Localization and Mask Estimation
- arxiv url: http://arxiv.org/abs/2410.19595v1
- Date: Fri, 25 Oct 2024 14:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:33:11.653398
- Title: Mask-Weighted Spatial Likelihood Coding for Speaker-Independent Joint Localization and Mask Estimation
- Title(参考訳): 話者独立な関節位置推定とマスク推定のためのマスク重み付き空間類似符号化
- Authors: Jakob Kienegger, Alina Mannanova, Timo Gerkmann,
- Abstract要約: 固定空間格子に関する話者の時間周波数マスクと相対方向を用いて、ビームフォーマのパラメータを推定することができる。
マスクと位置の両方をグリッドにエンコードして,両量の同時推定を可能にする方法について分析する。
- 参考スコア(独自算出の注目度): 14.001679439460359
- License:
- Abstract: Due to their robustness and flexibility, neural-driven beamformers are a popular choice for speech separation in challenging environments with a varying amount of simultaneous speakers alongside noise and reverberation. Time-frequency masks and relative directions of the speakers regarding a fixed spatial grid can be used to estimate the beamformer's parameters. To some degree, speaker-independence is achieved by ensuring a greater amount of spatial partitions than speech sources. In this work, we analyze how to encode both mask and positioning into such a grid to enable joint estimation of both quantities. We propose mask-weighted spatial likelihood coding and show that it achieves considerable performance in both tasks compared to baseline encodings optimized for either localization or mask estimation. In the same setup, we demonstrate superiority for joint estimation of both quantities. Conclusively, we propose a universal approach which can replace an upstream sound source localization system solely by adapting the training framework, making it highly relevant in performance-critical scenarios.
- Abstract(参考訳): その堅牢性と柔軟性のため、ニューラル駆動のビームフォーマは、ノイズや残響とともに様々な数の同時話者を持つ挑戦的な環境において、音声分離のための一般的な選択肢である。
固定空間格子に関する話者の時間周波数マスクと相対方向を用いて、ビームフォーマのパラメータを推定することができる。
ある程度は、話者独立性は、音声源よりも多くの空間分割を確保することで達成される。
本研究では,マスクと位置の双方をグリッドにエンコードして,両量の同時推定を可能にする方法について分析する。
マスク重み付き空間確率符号化法を提案し, 局所化とマスク推定に最適化されたベースライン符号化と比較して, 両タスクでかなりの性能を発揮することを示す。
同じ設定で、両量の共同推定における優位性を示す。
提案手法は,トレーニングフレームワークを適応させることで,上流の音源定位システムを置き換えることが可能であり,性能クリティカルなシナリオに極めて関連性が高い。
関連論文リスト
- A unified multichannel far-field speech recognition system: combining
neural beamforming with attention based end-to-end model [14.795953417531907]
本稿では,ニューラルビームフォーミングとトランスフォーマーをベースとしたリステン,スペル,アトンド(LAS)音声認識システムを組み合わせた多チャンネル遠距離音声認識システムを提案する。
提案手法は, 強いベースラインに比べて19.26%向上した。
論文 参考訳(メタデータ) (2024-01-05T07:11:13Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Variable Attention Masking for Configurable Transformer Transducer
Speech Recognition [23.546294634238677]
本研究では,トランスデューサを用いた音声認識におけるアテンションマスキングの活用について検討する。
チャンクマスキングは固定マスキングに比べて,遅延トレードオフよりも精度がよいことを示す。
また,音響再構成シナリオにおいて,可変マスキングにより最大8%の精度で精度が向上することを示した。
論文 参考訳(メタデータ) (2022-11-02T19:14:02Z) - Multi-scale Speaker Diarization with Dynamic Scale Weighting [14.473173007997751]
マルチスケールダイアリゼーションデコーダに基づく,より高度なマルチスケールダイアリゼーションシステムを提案する。
提案システムでは,CALLHOMEデータセットとAMI MixHeadsetデータセットに対して,それぞれ3.92%,1.05%のダイアリゼーション誤差率で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T01:26:31Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Diarisation using location tracking with agglomerative clustering [42.13772744221499]
本稿では,Agglomerative Hierarchical Clustering (AHC)ダイアリゼーションフレームワークにおける話者の動きを明示的にモデル化する。
実験により、提案手法は、Microsoftリッチミーティングの書き起こしタスクを改善することができることが示された。
論文 参考訳(メタデータ) (2021-09-22T08:54:10Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。