論文の概要: Speakerfilter-Pro: an improved target speaker extractor combines the
time domain and frequency domain
- arxiv url: http://arxiv.org/abs/2010.13053v1
- Date: Sun, 25 Oct 2020 07:30:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 05:15:38.872587
- Title: Speakerfilter-Pro: an improved target speaker extractor combines the
time domain and frequency domain
- Title(参考訳): Speakerfilter-Pro: 時間領域と周波数領域を組み合わせた改良されたターゲット話者抽出器
- Authors: Shulin He, Hao Li, Xueliang Zhang
- Abstract要約: 本稿では,従来の話者フィルタモデルに基づく改良された話者抽出器について紹介する。
Speakerfilterは、双方向ゲートリカレントユニット(BGRU)モジュールを使用して、ターゲット話者をアンカー音声から特徴付け、畳み込みリカレントネットワーク(CRN)モジュールを使用して、ターゲット話者をノイズ信号から分離する。
WaveUNetは、時間領域で音声分離を行うのにより良い能力があることが証明されている。
- 参考スコア(独自算出の注目度): 28.830492233611196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces an improved target speaker extractor, referred to as
Speakerfilter-Pro, based on our previous Speakerfilter model. The Speakerfilter
uses a bi-direction gated recurrent unit (BGRU) module to characterize the
target speaker from anchor speech and use a convolutional recurrent network
(CRN) module to separate the target speech from a noisy signal.Different from
the Speakerfilter, the Speakerfilter-Pro sticks a WaveUNet module in the
beginning and the ending, respectively. The WaveUNet has been proven to have a
better ability to perform speech separation in the time domain. In order to
extract the target speaker information better, the complex spectrum instead of
the magnitude spectrum is utilized as the input feature for the CRN module.
Experiments are conducted on the two-speaker dataset (WSJ0-mix2) which is
widely used for speaker extraction. The systematic evaluation shows that the
Speakerfilter-Pro outperforms the Speakerfilter and other baselines, and
achieves a signal-to-distortion ratio (SDR) of 14.95 dB.
- Abstract(参考訳): 本稿では,従来の話者フィルタモデルに基づく改良された話者抽出器について紹介する。
スピーカフィルタは、双方向ゲートリカレントユニット(bgru)モジュールを使用して、ターゲットスピーカをアンカー音声から特徴付け、畳み込みリカレントネットワーク(crn)モジュールを使用して、ターゲット音声とノイズ信号とを分離する。
WaveUNetは、時間領域で音声分離を行う能力が優れていることが証明されている。
ターゲット話者情報をよりよく抽出するために、CRNモジュールの入力特徴として、大きさスペクトルの代わりに複素スペクトルを用いる。
話者抽出に広く用いられている2話者データセット(WSJ0-mix2)について実験を行った。
系統評価では、話者フィルタ-Proはスピーカフィルタや他のベースラインよりも優れており、14.95dBの信号対歪み比(SDR)を達成する。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - Spectron: Target Speaker Extraction using Conditional Transformer with Adversarial Refinement [17.645026729525462]
混合音声信号から対象話者の音声を抽出するトランスフォーマーに基づくエンドツーエンドモデルを提案する。
実験の結果,セパレータのバックボーンにデュアルパストランスフォーマーを用いることで,CNNのベースラインを3.12ドルdBポイント向上できることがわかった。
論文 参考訳(メタデータ) (2024-09-02T16:11:12Z) - ASoBO: Attentive Beamformer Selection for Distant Speaker Diarization in Meetings [4.125756306660331]
話者ダイアリゼーション(SD)は、同一話者に属する音声セグメントをグループ化することを目的としている。
ビームフォーミング(ビームフォーミング、つまり空間フィルタリング)は、マルチマイクロフォンオーディオデータを処理する一般的な方法である。
本稿では,固定空間フィルタのバンクの出力を選択する自己注意型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T13:28:28Z) - Deep Ad-hoc Beamforming Based on Speaker Extraction for Target-Dependent
Speech Separation [7.453268060082337]
本稿では,話者抽出に基づくディープアドホックビームフォーミングを提案する。これは,アドホックマイクロホンアレイとディープラーニングに基づくターゲット依存音声分離のための最初の研究である。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-12-01T11:06:36Z) - Multi-stage Speaker Extraction with Utterance and Frame-Level Reference
Signals [113.78060608441348]
本稿では,複数段階の話者抽出手法を提案する。
初めて、ターゲット話者の基準としてフレームレベルの逐次音声埋め込みを用いる。
論文 参考訳(メタデータ) (2020-11-19T03:08:04Z) - Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation [79.63545132515188]
残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。
本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
論文 参考訳(メタデータ) (2020-10-04T22:13:13Z) - DeepVOX: Discovering Features from Raw Audio for Speaker Recognition in
Non-ideal Audio Signals [19.053492887246826]
本稿では,大量の音声からフィルタバンク設計を推定する深層学習手法を提案する。
このようなフィルタバンクの目的は、劣化、短時間、多言語音声などの非理想的音声条件に対して頑健な特徴を抽出することである。
論文 参考訳(メタデータ) (2020-08-26T16:50:26Z) - SpEx: Multi-Scale Time Domain Speaker Extraction Network [89.00319878262005]
話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の選択的な聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
本研究では,混合音声を音声信号を大域・位相スペクトルに分解する代わりに,マルチスケールの埋め込み係数に変換する時間領域話者抽出ネットワーク(SpEx)を提案する。
論文 参考訳(メタデータ) (2020-04-17T16:13:06Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。