論文の概要: Single channel voice separation for unknown number of speakers under
reverberant and noisy settings
- arxiv url: http://arxiv.org/abs/2011.02329v1
- Date: Wed, 4 Nov 2020 14:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 23:15:19.626109
- Title: Single channel voice separation for unknown number of speakers under
reverberant and noisy settings
- Title(参考訳): 残響・雑音下における未知話者のための単一チャンネル音声分離
- Authors: Shlomo E. Chazan, Lior Wolf, Eliya Nachmani, Yossi Adi
- Abstract要約: 未知話者の音声分離のための統一ネットワークを提案する。
提案手法は話者分類枝とともに最適化された複数の分離ヘッドから構成される。
最大5人の話者が同時に話す新しい雑音と残響のデータセットを提示する。
- 参考スコア(独自算出の注目度): 106.48335929548875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a unified network for voice separation of an unknown number of
speakers. The proposed approach is composed of several separation heads
optimized together with a speaker classification branch. The separation is
carried out in the time domain, together with parameter sharing between all
separation heads. The classification branch estimates the number of speakers
while each head is specialized in separating a different number of speakers. We
evaluate the proposed model under both clean and noisy reverberant set-tings.
Results suggest that the proposed approach is superior to the baseline model by
a significant margin. Additionally, we present a new noisy and reverberant
dataset of up to five different speakers speaking simultaneously.
- Abstract(参考訳): 本稿では,未知話者の音声分離のための統一ネットワークを提案する。
提案手法は話者分類分枝と共に最適化された複数の分離ヘッドからなる。
分離は、すべての分離ヘッド間のパラメータ共有とともに、時間領域で実行される。
分類部は、話者数を推定し、各頭部は異なる数の話者を分離することに特化している。
提案手法は, クリーンかつノイズの多い残響セットティングを用いて評価する。
その結果,提案手法はベースラインモデルよりも有意差で優れていることが示唆された。
さらに、最大5人の話者が同時に話す新しい雑音と残響データセットを提示する。
関連論文リスト
- SepIt: Approaching a Single Channel Speech Separation Bound [99.19786288094596]
我々は、異なる話者の推定を反復的に改善するディープニューラルネットワーク、SepItを導入する。
幅広い実験において、SepItは2, 3, 5, 10人の話者に対して最先端のニューラルネットワークより優れている。
論文 参考訳(メタデータ) (2022-05-24T05:40:36Z) - Bi-LSTM Scoring Based Similarity Measurement with Agglomerative
Hierarchical Clustering (AHC) for Speaker Diarization [0.0]
2つの話者間の典型的な会話は、声が重なり合う部分からなり、互いに中断したり、複数の文間での会話を止めたりする。
ダイアリゼーション技術の最近の進歩は、話者ダイアリゼーションシステムを即興化するニューラルネットワークベースのアプローチを活用している。
類似度行列に存在する要素を推定するための双方向長短期記憶ネットワークを提案する。
論文 参考訳(メタデータ) (2022-05-19T17:20:51Z) - Coarse-to-Fine Recursive Speech Separation for Unknown Number of
Speakers [8.380514397417457]
本稿では,マルチパス音源抽出問題として,未知話者数による音声分離を定式化する。
実験の結果,提案手法は話者数が異なるWSJ0データセット上で,最先端のパフォーマンスをアーカイブしていることがわかった。
論文 参考訳(メタデータ) (2022-03-30T04:45:34Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Time-Domain Speech Extraction with Spatial Information and Multi Speaker
Conditioning Mechanism [27.19635746008699]
混合物から複数のクリーンな個人ソースを同時に抽出する,新しいマルチチャネル音声抽出システムを提案する。
提案手法は改良されたマルチチャネル時間領域音声分離ネットワーク上に構築される。
2チャンネル WHAMR! データを用いた実験により, 強いマルチチャネルベースライン上でのソース分離性能を9%向上することを確認した。
論文 参考訳(メタデータ) (2021-02-07T10:11:49Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Multi-Decoder DPRNN: High Accuracy Source Counting and Separation [39.36689677776645]
本稿では,未知の話者数を持つ単一チャンネル音声分離のためのエンドツーエンドの訓練可能なアプローチを提案する。
提案手法はMulCatソース分離バックボーンを拡張して出力ヘッドを追加し,話者数を推定するカウントヘッドと,元の信号を再構成するデコーダヘッドを出力する。
提案手法は, 話者数を計測し, 再建信号の品質に競争力を維持する上で, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-24T11:00:21Z) - Speaker Separation Using Speaker Inventories and Estimated Speech [78.57067876891253]
話者在庫(SSUSI)と推定音声(SSUES)を用いた話者分離を提案する。
置換不変訓練(PIT)と音声抽出の利点を組み合わせることで、SSUSIは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-20T18:15:45Z) - Voice Separation with an Unknown Number of Multiple Speakers [113.91855071999298]
本稿では,複数の音声が同時に発声する混合音声系列を分離する手法を提案する。
新たな手法では、複数の処理ステップで音声を分離するように訓練されたゲートニューラルネットワークを使用し、各出力チャネルに固定された話者を維持する。
論文 参考訳(メタデータ) (2020-02-29T20:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。