論文の概要: SpEx: Multi-Scale Time Domain Speaker Extraction Network
- arxiv url: http://arxiv.org/abs/2004.08326v1
- Date: Fri, 17 Apr 2020 16:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 13:33:54.210503
- Title: SpEx: Multi-Scale Time Domain Speaker Extraction Network
- Title(参考訳): SpEx:マルチスケール時間領域話者抽出ネットワーク
- Authors: Chenglin Xu, Wei Rao, Eng Siong Chng and Haizhou Li
- Abstract要約: 話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の選択的な聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
本研究では,混合音声を音声信号を大域・位相スペクトルに分解する代わりに,マルチスケールの埋め込み係数に変換する時間領域話者抽出ネットワーク(SpEx)を提案する。
- 参考スコア(独自算出の注目度): 89.00319878262005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker extraction aims to mimic humans' selective auditory attention by
extracting a target speaker's voice from a multi-talker environment. It is
common to perform the extraction in frequency-domain, and reconstruct the
time-domain signal from the extracted magnitude and estimated phase spectra.
However, such an approach is adversely affected by the inherent difficulty of
phase estimation. Inspired by Conv-TasNet, we propose a time-domain speaker
extraction network (SpEx) that converts the mixture speech into multi-scale
embedding coefficients instead of decomposing the speech signal into magnitude
and phase spectra. In this way, we avoid phase estimation. The SpEx network
consists of four network components, namely speaker encoder, speech encoder,
speaker extractor, and speech decoder. Specifically, the speech encoder
converts the mixture speech into multi-scale embedding coefficients, the
speaker encoder learns to represent the target speaker with a speaker
embedding. The speaker extractor takes the multi-scale embedding coefficients
and target speaker embedding as input and estimates a receptive mask. Finally,
the speech decoder reconstructs the target speaker's speech from the masked
embedding coefficients. We also propose a multi-task learning framework and a
multi-scale embedding implementation. Experimental results show that the
proposed SpEx achieves 37.3%, 37.7% and 15.0% relative improvements over the
best baseline in terms of signal-to-distortion ratio (SDR), scale-invariant SDR
(SI-SDR), and perceptual evaluation of speech quality (PESQ) under an open
evaluation condition.
- Abstract(参考訳): 話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
しかし、このようなアプローチは位相推定の固有の困難さに悪影響を及ぼす。
本稿では,conv-tasnetに触発された時間領域話者抽出ネットワーク (spex) を提案する。
このようにして、位相推定は避ける。
spexネットワークは、話者エンコーダ、音声エンコーダ、話者抽出器、音声デコーダの4つのネットワークコンポーネントで構成される。
具体的には、混合音声を多スケール埋め込み係数に変換し、話者エンコーダは、話者埋め込みにより対象話者を表すことを学習する。
スピーカ抽出器は、マルチスケール埋め込み係数とターゲット話者埋め込みを入力として受信マスクを推定する。
最後に、音声デコーダは、マスキング埋め込み係数から対象話者の音声を再構成する。
また,マルチタスク学習フレームワークとマルチスケール埋め込み実装を提案する。
実験の結果,提案するspexは,sdr(signal-to-distortion ratio),si-sdr(scale-invariant sdr),pesq(perceptual evaluation of speech quality)において,最良ベースラインに対して37.3%,37.7%,15.0%の相対的改善が得られた。
関連論文リスト
- DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文 参考訳(メタデータ) (2024-05-30T14:41:39Z) - LocSelect: Target Speaker Localization with an Auditory Selective
Hearing Mechanism [45.90677498529653]
選択的補聴器を用いたターゲット話者定位アルゴリズムを提案する。
提案するネットワークLocSelectは平均絶対誤差(MAE)が3.55で精度(ACC)が87.40%である。
論文 参考訳(メタデータ) (2023-10-16T15:19:05Z) - Multi-microphone Automatic Speech Segmentation in Meetings Based on
Circular Harmonics Features [0.0]
円形高調波領域(CH-DOA)の方向推定に基づく新しい空間的特徴セットを提案する。
AMIミーティングコーパスの実験では、CH-DOAは非活性化マイクロホンの場合の堅牢さを保ちながらセグメンテーションを改善することができる。
論文 参考訳(メタデータ) (2023-06-07T09:09:00Z) - Enhancing Zero-Shot Many to Many Voice Conversion with Self-Attention
VAE [8.144263449781967]
変分自動エンコーダ(VAE)は、音声の発声を話者識別と言語内容の潜伏埋め込みに分解する有効なニューラルネットワークアーキテクチャである。
本研究では,VAEのデコーダの適切な位置から,変換音声を生成する際に,非局所情報を組み込む自己アテンション層を付加した。
論文 参考訳(メタデータ) (2022-03-30T03:52:42Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Deep Ad-hoc Beamforming Based on Speaker Extraction for Target-Dependent
Speech Separation [7.453268060082337]
本稿では,話者抽出に基づくディープアドホックビームフォーミングを提案する。これは,アドホックマイクロホンアレイとディープラーニングに基づくターゲット依存音声分離のための最初の研究である。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-12-01T11:06:36Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。