論文の概要: Deep Ad-hoc Beamforming Based on Speaker Extraction for Target-Dependent
Speech Separation
- arxiv url: http://arxiv.org/abs/2012.00403v1
- Date: Tue, 1 Dec 2020 11:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 19:38:41.701844
- Title: Deep Ad-hoc Beamforming Based on Speaker Extraction for Target-Dependent
Speech Separation
- Title(参考訳): ターゲット依存音声分離のための話者抽出に基づく深部アドホックビームフォーミング
- Authors: Ziye Yang, Shanzheng Guan and Xiao-Lei Zhang
- Abstract要約: 本稿では,話者抽出に基づくディープアドホックビームフォーミングを提案する。これは,アドホックマイクロホンアレイとディープラーニングに基づくターゲット依存音声分離のための最初の研究である。
実験の結果,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 7.453268060082337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the research on ad-hoc microphone arrays with deep learning has
drawn much attention, especially in speech enhancement and separation. Because
an ad-hoc microphone array may cover such a large area that multiple speakers
may locate far apart and talk independently, target-dependent speech
separation, which aims to extract a target speaker from a mixed speech, is
important for extracting and tracing a specific speaker in the ad-hoc array.
However, this technique has not been explored yet. In this paper, we propose
deep ad-hoc beamforming based on speaker extraction, which is to our knowledge
the first work for target-dependent speech separation based on ad-hoc
microphone arrays and deep learning. The algorithm contains three components.
First, we propose a supervised channel selection framework based on speaker
extraction, where the estimated utterance-level SNRs of the target speech are
used as the basis for the channel selection. Second, we apply the selected
channels to a deep learning based MVDR algorithm, where a single-channel
speaker extraction algorithm is applied to each selected channel for estimating
the mask of the target speech. We conducted an extensive experiment on a
WSJ0-adhoc corpus. Experimental results demonstrate the effectiveness of the
proposed method.
- Abstract(参考訳): 近年,特に音声強調と分離において,深層学習を伴うアドホックマイクロホンアレイの研究が注目されている。
アドホックマイクロホンアレイは、複数の話者が遠く離れた場所から独立して話すことができるほど広い領域をカバーする可能性があるため、混合音声からターゲット話者を抽出することを目的としたターゲット依存音声分離は、アドホックアレー内の特定の話者を抽出・追跡する上で重要である。
しかし、この技術はまだ研究されていない。
本稿では,話者抽出に基づく深部アドホックビームフォーミングを提案する。これは,アドホックマイクロホンアレーと深部学習に基づくターゲット依存音声分離の最初の仕事である。
アルゴリズムは3つのコンポーネントを含む。
まず、話者抽出に基づく教師付きチャンネル選択フレームワークを提案し、対象音声の発話レベルSNRをチャネル選択の基盤として利用する。
次に、選択したチャネルを深層学習に基づくMVDRアルゴリズムに適用し、ターゲット音声のマスクを推定するために、選択したチャネル毎に単一チャネル話者抽出アルゴリズムを適用する。
wsj0-adhocコーパスの広範な実験を行った。
実験の結果,提案手法の有効性が示された。
関連論文リスト
- ASoBO: Attentive Beamformer Selection for Distant Speaker Diarization in Meetings [4.125756306660331]
話者ダイアリゼーション(SD)は、同一話者に属する音声セグメントをグループ化することを目的としている。
ビームフォーミング(ビームフォーミング、つまり空間フィルタリング)は、マルチマイクロフォンオーディオデータを処理する一般的な方法である。
本稿では,固定空間フィルタのバンクの出力を選択する自己注意型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T13:28:28Z) - LocSelect: Target Speaker Localization with an Auditory Selective
Hearing Mechanism [45.90677498529653]
選択的補聴器を用いたターゲット話者定位アルゴリズムを提案する。
提案するネットワークLocSelectは平均絶対誤差(MAE)が3.55で精度(ACC)が87.40%である。
論文 参考訳(メタデータ) (2023-10-16T15:19:05Z) - Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS [36.023566245506046]
マルチ話者音声を対象としたヒューマン・イン・ザ・ループ話者適応手法を提案する。
提案手法では, ユーザに対して, 埋め込み空間内の線分上の点を選択するように繰り返し要求する逐次線探索アルゴリズムを用いる。
実験結果から,提案手法は客観的および主観的評価において従来の手法に匹敵する性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T11:08:05Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Guided Training: A Simple Method for Single-channel Speaker Separation [40.34570426165019]
本稿では,話者分離における置換問題を解決するため,長期記憶モデル(LSTM)を訓練する戦略を提案する。
シーケンスモデリングの強力な能力のため、LSTMはそのメモリセルを使用して、ターゲット音声と干渉音声の追跡と分離を行うことができる。
論文 参考訳(メタデータ) (2021-03-26T08:46:50Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - SpEx: Multi-Scale Time Domain Speaker Extraction Network [89.00319878262005]
話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の選択的な聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
本研究では,混合音声を音声信号を大域・位相スペクトルに分解する代わりに,マルチスケールの埋め込み係数に変換する時間領域話者抽出ネットワーク(SpEx)を提案する。
論文 参考訳(メタデータ) (2020-04-17T16:13:06Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。