論文の概要: Coarse-to-Fine Recursive Speech Separation for Unknown Number of
Speakers
- arxiv url: http://arxiv.org/abs/2203.16054v1
- Date: Wed, 30 Mar 2022 04:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 16:57:59.252687
- Title: Coarse-to-Fine Recursive Speech Separation for Unknown Number of
Speakers
- Title(参考訳): 未知話者数に対する粗-重再帰音声分離
- Authors: Zhenhao Jin, Xiang Hao and Xiangdong Su
- Abstract要約: 本稿では,マルチパス音源抽出問題として,未知話者数による音声分離を定式化する。
実験の結果,提案手法は話者数が異なるWSJ0データセット上で,最先端のパフォーマンスをアーカイブしていることがわかった。
- 参考スコア(独自算出の注目度): 8.380514397417457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vast majority of speech separation methods assume that the number of
speakers is known in advance, hence they are specific to the number of
speakers. By contrast, a more realistic and challenging task is to separate a
mixture in which the number of speakers is unknown. This paper formulates the
speech separation with the unknown number of speakers as a multi-pass source
extraction problem and proposes a coarse-to-fine recursive speech separation
method. This method comprises two stages, namely, recursive cue extraction and
target speaker extraction. The recursive cue extraction stage determines how
many computational iterations need to be performed and outputs a coarse cue
speech by monitoring statistics in the mixture. As the number of recursive
iterations increases, the accumulation of distortion eventually comes into the
extracted speech and reminder. Therefore, in the second stage, we use a target
speaker extraction network to extract a fine speech based on the coarse target
cue and the original distortionless mixture. Experiments show that the proposed
method archived state-of-the-art performance on the WSJ0 dataset with a
different number of speakers. Furthermore, it generalizes well to an unseen
large number of speakers.
- Abstract(参考訳): 音声分離手法の大多数は、話者の数が予め知られているため、話者の数に比例していると仮定している。
対照的に、より現実的で困難なタスクは、話者数が不明な混合物を分離することである。
本稿では,未知話者数による音声分離をマルチパス音源抽出問題として定式化し,粗大な再帰的音声分離法を提案する。
この方法は、2つの段階、すなわち再帰的キュー抽出とターゲット話者抽出からなる。
再帰的キュー抽出段階は、どれだけの計算繰り返しを行う必要があるかを決定し、混合の統計を監視して粗いキュー音声を出力する。
再帰的な反復の数が増加するにつれて、歪みの蓄積は最終的に抽出された音声とリマインダーに現れる。
そこで,第2段階では,ターゲット話者抽出ネットワークを用いて,粗いターゲットキューと元の歪みのない混合に基づく微細な音声を抽出する。
実験により,提案手法は,話者数が異なるwsj0データセット上で,最先端のパフォーマンスをアーカイブすることを示した。
さらに、目に見えない多数の話者によく一般化する。
関連論文リスト
- End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Deep Ad-hoc Beamforming Based on Speaker Extraction for Target-Dependent
Speech Separation [7.453268060082337]
本稿では,話者抽出に基づくディープアドホックビームフォーミングを提案する。これは,アドホックマイクロホンアレイとディープラーニングに基づくターゲット依存音声分離のための最初の研究である。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-12-01T11:06:36Z) - Single channel voice separation for unknown number of speakers under
reverberant and noisy settings [106.48335929548875]
未知話者の音声分離のための統一ネットワークを提案する。
提案手法は話者分類枝とともに最適化された複数の分離ヘッドから構成される。
最大5人の話者が同時に話す新しい雑音と残響のデータセットを提示する。
論文 参考訳(メタデータ) (2020-11-04T14:59:14Z) - Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文 参考訳(メタデータ) (2020-06-04T11:25:50Z) - Neural Speaker Diarization with Speaker-Wise Chain Rule [45.60980782843576]
話者ダイアリゼーションのための話者ワイド条件付き推論手法を提案する。
提案手法は,可変話者数で精度よくダイアリゼーション結果を生成することができることを示す。
論文 参考訳(メタデータ) (2020-06-02T17:28:12Z) - SpEx: Multi-Scale Time Domain Speaker Extraction Network [89.00319878262005]
話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の選択的な聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
本研究では,混合音声を音声信号を大域・位相スペクトルに分解する代わりに,マルチスケールの埋め込み係数に変換する時間領域話者抽出ネットワーク(SpEx)を提案する。
論文 参考訳(メタデータ) (2020-04-17T16:13:06Z) - Voice Separation with an Unknown Number of Multiple Speakers [113.91855071999298]
本稿では,複数の音声が同時に発声する混合音声系列を分離する手法を提案する。
新たな手法では、複数の処理ステップで音声を分離するように訓練されたゲートニューラルネットワークを使用し、各出力チャネルに固定された話者を維持する。
論文 参考訳(メタデータ) (2020-02-29T20:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。