論文の概要: Multi-Decoder DPRNN: High Accuracy Source Counting and Separation
- arxiv url: http://arxiv.org/abs/2011.12022v2
- Date: Mon, 30 Nov 2020 16:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 14:31:28.822557
- Title: Multi-Decoder DPRNN: High Accuracy Source Counting and Separation
- Title(参考訳): マルチデコーダDPRNN:高精度ソースカウントと分離
- Authors: Junzhe Zhu, Raymond Yeh, Mark Hasegawa-Johnson
- Abstract要約: 本稿では,未知の話者数を持つ単一チャンネル音声分離のためのエンドツーエンドの訓練可能なアプローチを提案する。
提案手法はMulCatソース分離バックボーンを拡張して出力ヘッドを追加し,話者数を推定するカウントヘッドと,元の信号を再構成するデコーダヘッドを出力する。
提案手法は, 話者数を計測し, 再建信号の品質に競争力を維持する上で, 最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 39.36689677776645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an end-to-end trainable approach to single-channel speech
separation with unknown number of speakers. Our approach extends the MulCat
source separation backbone with additional output heads: a count-head to infer
the number of speakers, and decoder-heads for reconstructing the original
signals. Beyond the model, we also propose a metric on how to evaluate source
separation with variable number of speakers. Specifically, we cleared up the
issue on how to evaluate the quality when the ground-truth hasmore or less
speakers than the ones predicted by the model. We evaluate our approach on the
WSJ0-mix datasets, with mixtures up to five speakers. We demonstrate that our
approach outperforms state-of-the-art in counting the number of speakers and
remains competitive in quality of reconstructed signals.
- Abstract(参考訳): 本稿では,未知数の話者による単一チャネル音声分離のためのエンドツーエンド学習可能な手法を提案する。
提案手法はMulCatソース分離バックボーンを拡張して出力ヘッドを追加し,話者数を推定するカウントヘッドと,元の信号を再構成するデコーダヘッドを出力する。
モデル以外にも,話者数可変による音源分離の評価方法に関する指標も提案する。
具体的には,モデルによって予測されるものよりも,音質が急速あるいは低くなる場合の音質を評価する方法について議論した。
我々は、WSJ0-mixデータセットに対するアプローチを最大5つの話者で評価した。
提案手法は, 話者数を計測し, 再建された信号の品質に競争力を有することを示す。
関連論文リスト
- Spectron: Target Speaker Extraction using Conditional Transformer with Adversarial Refinement [17.645026729525462]
混合音声信号から対象話者の音声を抽出するトランスフォーマーに基づくエンドツーエンドモデルを提案する。
実験の結果,セパレータのバックボーンにデュアルパストランスフォーマーを用いることで,CNNのベースラインを3.12ドルdBポイント向上できることがわかった。
論文 参考訳(メタデータ) (2024-09-02T16:11:12Z) - Investigating Confidence Estimation Measures for Speaker Diarization [4.679826697518427]
話者ダイアリゼーションシステムは、話者のアイデンティティに基づいた会話記録をセグメント化する。
話者ダイアリゼーションエラーは、話者のアイデンティティに依存する下流システムに伝播し、悪影響を及ぼす可能性がある。
これらのエラーを軽減する方法の1つは、下流システムにセグメントレベルのダイアリゼーション信頼スコアを提供することである。
論文 参考訳(メタデータ) (2024-06-24T20:21:38Z) - SepIt: Approaching a Single Channel Speech Separation Bound [99.19786288094596]
我々は、異なる話者の推定を反復的に改善するディープニューラルネットワーク、SepItを導入する。
幅広い実験において、SepItは2, 3, 5, 10人の話者に対して最先端のニューラルネットワークより優れている。
論文 参考訳(メタデータ) (2022-05-24T05:40:36Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - Multi-scale Speaker Diarization with Dynamic Scale Weighting [14.473173007997751]
マルチスケールダイアリゼーションデコーダに基づく,より高度なマルチスケールダイアリゼーションシステムを提案する。
提案システムでは,CALLHOMEデータセットとAMI MixHeadsetデータセットに対して,それぞれ3.92%,1.05%のダイアリゼーション誤差率で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T01:26:31Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Time-Domain Speech Extraction with Spatial Information and Multi Speaker
Conditioning Mechanism [27.19635746008699]
混合物から複数のクリーンな個人ソースを同時に抽出する,新しいマルチチャネル音声抽出システムを提案する。
提案手法は改良されたマルチチャネル時間領域音声分離ネットワーク上に構築される。
2チャンネル WHAMR! データを用いた実験により, 強いマルチチャネルベースライン上でのソース分離性能を9%向上することを確認した。
論文 参考訳(メタデータ) (2021-02-07T10:11:49Z) - Single channel voice separation for unknown number of speakers under
reverberant and noisy settings [106.48335929548875]
未知話者の音声分離のための統一ネットワークを提案する。
提案手法は話者分類枝とともに最適化された複数の分離ヘッドから構成される。
最大5人の話者が同時に話す新しい雑音と残響のデータセットを提示する。
論文 参考訳(メタデータ) (2020-11-04T14:59:14Z) - Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文 参考訳(メタデータ) (2020-06-04T11:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。