論文の概要: Speakerfilter-Pro: an improved target speaker extractor combines the
time domain and frequency domain
- arxiv url: http://arxiv.org/abs/2010.13053v1
- Date: Sun, 25 Oct 2020 07:30:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 05:15:38.872587
- Title: Speakerfilter-Pro: an improved target speaker extractor combines the
time domain and frequency domain
- Title(参考訳): Speakerfilter-Pro: 時間領域と周波数領域を組み合わせた改良されたターゲット話者抽出器
- Authors: Shulin He, Hao Li, Xueliang Zhang
- Abstract要約: 本稿では,従来の話者フィルタモデルに基づく改良された話者抽出器について紹介する。
Speakerfilterは、双方向ゲートリカレントユニット(BGRU)モジュールを使用して、ターゲット話者をアンカー音声から特徴付け、畳み込みリカレントネットワーク(CRN)モジュールを使用して、ターゲット話者をノイズ信号から分離する。
WaveUNetは、時間領域で音声分離を行うのにより良い能力があることが証明されている。
- 参考スコア(独自算出の注目度): 28.830492233611196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces an improved target speaker extractor, referred to as
Speakerfilter-Pro, based on our previous Speakerfilter model. The Speakerfilter
uses a bi-direction gated recurrent unit (BGRU) module to characterize the
target speaker from anchor speech and use a convolutional recurrent network
(CRN) module to separate the target speech from a noisy signal.Different from
the Speakerfilter, the Speakerfilter-Pro sticks a WaveUNet module in the
beginning and the ending, respectively. The WaveUNet has been proven to have a
better ability to perform speech separation in the time domain. In order to
extract the target speaker information better, the complex spectrum instead of
the magnitude spectrum is utilized as the input feature for the CRN module.
Experiments are conducted on the two-speaker dataset (WSJ0-mix2) which is
widely used for speaker extraction. The systematic evaluation shows that the
Speakerfilter-Pro outperforms the Speakerfilter and other baselines, and
achieves a signal-to-distortion ratio (SDR) of 14.95 dB.
- Abstract(参考訳): 本稿では,従来の話者フィルタモデルに基づく改良された話者抽出器について紹介する。
スピーカフィルタは、双方向ゲートリカレントユニット(bgru)モジュールを使用して、ターゲットスピーカをアンカー音声から特徴付け、畳み込みリカレントネットワーク(crn)モジュールを使用して、ターゲット音声とノイズ信号とを分離する。
WaveUNetは、時間領域で音声分離を行う能力が優れていることが証明されている。
ターゲット話者情報をよりよく抽出するために、CRNモジュールの入力特徴として、大きさスペクトルの代わりに複素スペクトルを用いる。
話者抽出に広く用いられている2話者データセット(WSJ0-mix2)について実験を行った。
系統評価では、話者フィルタ-Proはスピーカフィルタや他のベースラインよりも優れており、14.95dBの信号対歪み比(SDR)を達成する。
関連論文リスト
- LocSelect: Target Speaker Localization with an Auditory Selective
Hearing Mechanism [45.90677498529653]
選択的補聴器を用いたターゲット話者定位アルゴリズムを提案する。
提案するネットワークLocSelectは平均絶対誤差(MAE)が3.55で精度(ACC)が87.40%である。
論文 参考訳(メタデータ) (2023-10-16T15:19:05Z) - Deep Ad-hoc Beamforming Based on Speaker Extraction for Target-Dependent
Speech Separation [7.453268060082337]
本稿では,話者抽出に基づくディープアドホックビームフォーミングを提案する。これは,アドホックマイクロホンアレイとディープラーニングに基づくターゲット依存音声分離のための最初の研究である。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-12-01T11:06:36Z) - Multi-stage Speaker Extraction with Utterance and Frame-Level Reference
Signals [113.78060608441348]
本稿では,複数段階の話者抽出手法を提案する。
初めて、ターゲット話者の基準としてフレームレベルの逐次音声埋め込みを用いる。
論文 参考訳(メタデータ) (2020-11-19T03:08:04Z) - Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation [79.63545132515188]
残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。
本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
論文 参考訳(メタデータ) (2020-10-04T22:13:13Z) - DeepVOX: Discovering Features from Raw Audio for Speaker Recognition in
Non-ideal Audio Signals [19.053492887246826]
本稿では,大量の音声からフィルタバンク設計を推定する深層学習手法を提案する。
このようなフィルタバンクの目的は、劣化、短時間、多言語音声などの非理想的音声条件に対して頑健な特徴を抽出することである。
論文 参考訳(メタデータ) (2020-08-26T16:50:26Z) - SpEx: Multi-Scale Time Domain Speaker Extraction Network [89.00319878262005]
話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の選択的な聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
本研究では,混合音声を音声信号を大域・位相スペクトルに分解する代わりに,マルチスケールの埋め込み係数に変換する時間領域話者抽出ネットワーク(SpEx)を提案する。
論文 参考訳(メタデータ) (2020-04-17T16:13:06Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。