論文の概要: LocSelect: Target Speaker Localization with an Auditory Selective
Hearing Mechanism
- arxiv url: http://arxiv.org/abs/2310.10497v2
- Date: Tue, 17 Oct 2023 13:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 10:46:44.965847
- Title: LocSelect: Target Speaker Localization with an Auditory Selective
Hearing Mechanism
- Title(参考訳): 聴覚選択的聴覚機構を用いたターゲット話者の定位
- Authors: Yu Chen, Xinyuan Qian, Zexu Pan, Kainan Chen, Haizhou Li
- Abstract要約: 選択的補聴器を用いたターゲット話者定位アルゴリズムを提案する。
提案するネットワークLocSelectは平均絶対誤差(MAE)が3.55で精度(ACC)が87.40%である。
- 参考スコア(独自算出の注目度): 45.90677498529653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevailing noise-resistant and reverberation-resistant localization
algorithms primarily emphasize separating and providing directional output for
each speaker in multi-speaker scenarios, without association with the identity
of speakers. In this paper, we present a target speaker localization algorithm
with a selective hearing mechanism. Given a reference speech of the target
speaker, we first produce a speaker-dependent spectrogram mask to eliminate
interfering speakers' speech. Subsequently, a Long short-term memory (LSTM)
network is employed to extract the target speaker's location from the filtered
spectrogram. Experiments validate the superiority of our proposed method over
the existing algorithms for different scale invariant signal-to-noise ratios
(SNR) conditions. Specifically, at SNR = -10 dB, our proposed network LocSelect
achieves a mean absolute error (MAE) of 3.55 and an accuracy (ACC) of 87.40%.
- Abstract(参考訳): 雑音耐性および残響耐性のローカライゼーションアルゴリズムは,話者の同一性に関係なく,多話者シナリオにおける話者毎の方向出力の分離と提供を重視している。
本稿では,選択的補聴器を用いたターゲット話者定位アルゴリズムを提案する。
対象話者の参照音声が与えられた場合、まず話者依存スペクトログラムマスクを作成し、干渉話者の音声を除去する。
その後、Long Short-term memory(LSTM)ネットワークを用いて、フィルタされた分光図からターゲット話者の位置を抽出する。
実験により,SNR条件下での既存アルゴリズムと比較して,提案手法の優位性を検証した。
具体的には、SNR = -10 dB において、提案するネットワーク LocSelect は平均絶対誤差(MAE)が 3.55 で精度(ACC)が 87.40% である。
関連論文リスト
- Symmetric Saliency-based Adversarial Attack To Speaker Identification [17.087523686496958]
我々は、対称サリエンシに基づくエンコーダデコーダ(SSED)と呼ばれる、新しい世代ネットワークベースのアプローチを提案する。
まず,新規な唾液マップデコーダを用いて,対象話者識別システムの決定に対する音声サンプルの重要性を学習する。
第2に,話者を音源から遠ざける角度損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-30T08:54:02Z) - Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS [36.023566245506046]
マルチ話者音声を対象としたヒューマン・イン・ザ・ループ話者適応手法を提案する。
提案手法では, ユーザに対して, 埋め込み空間内の線分上の点を選択するように繰り返し要求する逐次線探索アルゴリズムを用いる。
実験結果から,提案手法は客観的および主観的評価において従来の手法に匹敵する性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T11:08:05Z) - Bi-LSTM Scoring Based Similarity Measurement with Agglomerative
Hierarchical Clustering (AHC) for Speaker Diarization [0.0]
2つの話者間の典型的な会話は、声が重なり合う部分からなり、互いに中断したり、複数の文間での会話を止めたりする。
ダイアリゼーション技術の最近の進歩は、話者ダイアリゼーションシステムを即興化するニューラルネットワークベースのアプローチを活用している。
類似度行列に存在する要素を推定するための双方向長短期記憶ネットワークを提案する。
論文 参考訳(メタデータ) (2022-05-19T17:20:51Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Deep Ad-hoc Beamforming Based on Speaker Extraction for Target-Dependent
Speech Separation [7.453268060082337]
本稿では,話者抽出に基づくディープアドホックビームフォーミングを提案する。これは,アドホックマイクロホンアレイとディープラーニングに基づくターゲット依存音声分離のための最初の研究である。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-12-01T11:06:36Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - SpEx: Multi-Scale Time Domain Speaker Extraction Network [89.00319878262005]
話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の選択的な聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
本研究では,混合音声を音声信号を大域・位相スペクトルに分解する代わりに,マルチスケールの埋め込み係数に変換する時間領域話者抽出ネットワーク(SpEx)を提案する。
論文 参考訳(メタデータ) (2020-04-17T16:13:06Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。