論文の概要: End-to-End Speaker Diarization for an Unknown Number of Speakers with
Encoder-Decoder Based Attractors
- arxiv url: http://arxiv.org/abs/2005.09921v3
- Date: Mon, 5 Oct 2020 07:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 05:58:25.914739
- Title: End-to-End Speaker Diarization for an Unknown Number of Speakers with
Encoder-Decoder Based Attractors
- Title(参考訳): エンコーダデコーダを用いた未知話者数に対するエンドツーエンド話者ダイアリゼーション
- Authors: Shota Horiguchi, Yusuke Fujita, Shinji Watanabe, Yawen Xue, Kenji
Nagamatsu
- Abstract要約: 本稿では,エンコーダ・デコーダを用いたアトラクタ計算手法を提案する。
音声埋め込みシーケンスからフレキシブルな数のアトラクタを生成する。
生成された複数のアトラクタは、音声埋め込みシーケンスによって乗算され、同じ数の話者活動を生成する。
- 参考スコア(独自算出の注目度): 45.38809571153867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end speaker diarization for an unknown number of speakers is addressed
in this paper. Recently proposed end-to-end speaker diarization outperformed
conventional clustering-based speaker diarization, but it has one drawback: it
is less flexible in terms of the number of speakers. This paper proposes a
method for encoder-decoder based attractor calculation (EDA), which first
generates a flexible number of attractors from a speech embedding sequence.
Then, the generated multiple attractors are multiplied by the speech embedding
sequence to produce the same number of speaker activities. The speech embedding
sequence is extracted using the conventional self-attentive end-to-end neural
speaker diarization (SA-EEND) network. In a two-speaker condition, our method
achieved a 2.69 % diarization error rate (DER) on simulated mixtures and a 8.07
% DER on the two-speaker subset of CALLHOME, while vanilla SA-EEND attained
4.56 % and 9.54 %, respectively. In unknown numbers of speakers conditions, our
method attained a 15.29 % DER on CALLHOME, while the x-vector-based clustering
method achieved a 19.43 % DER.
- Abstract(参考訳): 本稿では,未知数の話者に対するエンドツーエンド話者ダイアリゼーションについて述べる。
最近提案されたエンドツーエンドの話者ダイアリゼーションは、従来のクラスタリングベースの話者ダイアリゼーションよりも優れているが、ひとつの欠点がある。
本稿では,まず音声埋め込みシーケンスからフレキシブルなアトラクタ数を生成するエンコーダ・デコーダに基づくアトラクタ計算(eda)手法を提案する。
そして、生成された複数のアトラクタを音声埋め込みシーケンスに乗じて、同一数の話者アクティビティを生成する。
従来の自己注意型エンドツーエンドニューラルネットワークダイアリゼーション(sa-eend)ネットワークを用いて音声埋め込みシーケンスを抽出する。
2話者条件下では,シミュレーション混合物上で2.69 %ダイアリゼーション誤差率 (der) を,callhome の2話者サブセットに対して8.07 %,vanilla sa-eend が4.56 %,9.54 %をそれぞれ達成した。
話者条件が不明な場合には,callhomeでは15.29 %,x-vectorベースのクラスタリングでは19.43 %であった。
関連論文リスト
- Generation of Speaker Representations Using Heterogeneous Training Batch
Assembly [16.534380339042087]
本稿では,CNNに基づく話者モデリング手法を提案する。
トレーニングデータを一組のセグメントにランダムに合成的に拡張する。
各セグメントには、その話者占有率に基づいてソフトラベルが課される。
論文 参考訳(メタデータ) (2022-03-30T19:59:05Z) - Multi-scale Speaker Diarization with Dynamic Scale Weighting [14.473173007997751]
マルチスケールダイアリゼーションデコーダに基づく,より高度なマルチスケールダイアリゼーションシステムを提案する。
提案システムでは,CALLHOMEデータセットとAMI MixHeadsetデータセットに対して,それぞれ3.92%,1.05%のダイアリゼーション誤差率で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T01:26:31Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel
Multi-party Meeting Transcription Challenge [4.022057598291766]
マルチチャンネル多人数会議記述課題へのRoyalflush話者ダイアリゼーションシステムの適用
システムは、音声強調、重複音声検出、話者埋め込み抽出、話者クラスタリング、音声分離、システム融合を含む。
論文 参考訳(メタデータ) (2022-02-10T03:35:05Z) - Towards Neural Diarization for Unlimited Numbers of Speakers Using
Global and Local Attractors [51.01295414889487]
本稿では,アトラクタをベースとしたエンドツーエンドダイアリゼーションに,教師なしクラスタリングプロセスを導入する。
提案手法はCALLHOME, DIHARD II, DIHARD IIIデータセットで11.84 %, 28.33 %, 19.49 %を達成した。
論文 参考訳(メタデータ) (2021-07-04T05:34:21Z) - DIVE: End-to-end Speech Diarization via Iterative Speaker Embedding [29.05893644064964]
エンドツーエンドの話者ダイアリゼーションアルゴリズムであるDIVEを紹介する。
抽出された表現に基づいて、各話者の音声活動を予測する前に、各話者に対する表現を繰り返し構築する。
この戦略は、古典的な置換不変の訓練損失を必要とせずに、話者のあいまいさを本質的に解決する。
論文 参考訳(メタデータ) (2021-05-28T13:15:52Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Compositional embedding models for speaker identification and
diarization with simultaneous speech from 2+ speakers [25.280566939206714]
2人以上の話者で重なり合う音声を処理できる新しい話者ダイアリゼーション法を提案する。
本手法は, 組成埋め込みに基づく。
論文 参考訳(メタデータ) (2020-10-22T15:33:36Z) - Identify Speakers in Cocktail Parties with End-to-End Attention [48.96655134462949]
本稿では,音声ソース抽出と話者識別を統合したエンドツーエンドシステムを提案する。
本稿では,チャネル次元に沿って話者予測を最大にすることで,これら2つの部分を協調的に最適化する方法を提案する。
エンドツーエンドのトレーニングは、99.9%の精度と93.9%の精度で2話者放送音声の1つの話者を認識するシステムである。
論文 参考訳(メタデータ) (2020-05-22T22:15:16Z) - SpEx: Multi-Scale Time Domain Speaker Extraction Network [89.00319878262005]
話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の選択的な聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
本研究では,混合音声を音声信号を大域・位相スペクトルに分解する代わりに,マルチスケールの埋め込み係数に変換する時間領域話者抽出ネットワーク(SpEx)を提案する。
論文 参考訳(メタデータ) (2020-04-17T16:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。