論文の概要: End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification
- arxiv url: http://arxiv.org/abs/2003.02966v1
- Date: Mon, 24 Feb 2020 14:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 04:22:52.505695
- Title: End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification
- Title(参考訳): エンドツーエンドのニューラルダイアリゼーション:単純なマルチラベル分類としての話者ダイアリゼーションの再構成
- Authors: Yusuke Fujita, Shinji Watanabe, Shota Horiguchi, Yawen Xue, Kenji
Nagamatsu
- Abstract要約: 本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
- 参考スコア(独自算出の注目度): 45.38809571153867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The most common approach to speaker diarization is clustering of speaker
embeddings. However, the clustering-based approach has a number of problems;
i.e., (i) it is not optimized to minimize diarization errors directly, (ii) it
cannot handle speaker overlaps correctly, and (iii) it has trouble adapting
their speaker embedding models to real audio recordings with speaker overlaps.
To solve these problems, we propose the End-to-End Neural Diarization (EEND),
in which a neural network directly outputs speaker diarization results given a
multi-speaker recording. To realize such an end-to-end model, we formulate the
speaker diarization problem as a multi-label classification problem and
introduce a permutation-free objective function to directly minimize
diarization errors. Besides its end-to-end simplicity, the EEND method can
explicitly handle speaker overlaps during training and inference. Just by
feeding multi-speaker recordings with corresponding speaker segment labels, our
model can be easily adapted to real conversations. We evaluated our method on
simulated speech mixtures and real conversation datasets. The results showed
that the EEND method outperformed the state-of-the-art x-vector
clustering-based method, while it correctly handled speaker overlaps. We
explored the neural network architecture for the EEND method, and found that
the self-attention-based neural network was the key to achieving excellent
performance. In contrast to conditioning the network only on its previous and
next hidden states, as is done using bidirectional long short-term memory
(BLSTM), self-attention is directly conditioned on all the frames. By
visualizing the attention weights, we show that self-attention captures global
speaker characteristics in addition to local speech activity dynamics, making
it especially suitable for dealing with the speaker diarization problem.
- Abstract(参考訳): 話者ダイアリゼーションの最も一般的なアプローチは話者埋め込みのクラスタリングである。
しかし、クラスタリングベースのアプローチには多くの問題がある。
(i)ダイアリゼーションエラーの最小化に最適化されていないこと。
(ii)話者重複を正しく処理できないこと、
(iii)話者重なりのある実際の音声録音に話者埋め込みモデルを適用するのに苦労している。
そこで本研究では,マルチスピーカー記録により,ニューラルネットワークが話者ダイアリゼーション結果を直接出力するエンド・ツー・エンドニューラルネットワークダイアリゼーション(eend)を提案する。
このようなエンドツーエンドモデルを実現するために,話者ダイアリゼーション問題をマルチラベル分類問題として定式化し,ダイアリゼーション誤差を直接最小化する置換自由目的関数を導入する。
エンドツーエンドの単純さに加えて、EENDメソッドはトレーニングや推論中に話者オーバーラップを明示的に処理することができる。
複数の話者の録音を対応する話者セグメントラベルで送ることで、本モデルが実際の会話に適応できる。
提案手法を実会話データセットと模擬音声混合を用いて評価した。
その結果、eend法が最先端のx-vectorクラスタリングベース法を上回り、話者重複を正しく処理した。
EEND法のニューラルネットワークアーキテクチャを検討した結果,自己注意型ニューラルネットワークが優れたパフォーマンスを実現する鍵であることが判明した。
双方向長短期メモリ(BLSTM)を用いて行われるように、ネットワークを前と次の隠れ状態のみに条件付けするのとは対照的に、自己注意は全てのフレームで直接条件付けされる。
注意重みを可視化することにより、局所的な音声活動のダイナミクスに加えて、自己注意がグローバルな話者特性を捉え、話者ダイアリゼーション問題に特に適していることを示す。
関連論文リスト
- Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。
長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文 参考訳(メタデータ) (2024-01-30T09:09:22Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Guided Training: A Simple Method for Single-channel Speaker Separation [40.34570426165019]
本稿では,話者分離における置換問題を解決するため,長期記憶モデル(LSTM)を訓練する戦略を提案する。
シーケンスモデリングの強力な能力のため、LSTMはそのメモリセルを使用して、ターゲット音声と干渉音声の追跡と分離を行うことができる。
論文 参考訳(メタデータ) (2021-03-26T08:46:50Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Speaker diarization with session-level speaker embedding refinement
using graph neural networks [26.688724154619504]
話者ダイアリゼーション問題に対するグラフニューラルネットワーク(GNN)の最初の利用法として,GNNを用いて話者埋め込みを局所的に洗練する手法を提案する。
事前学習されたモデルによって抽出された話者埋め込みは、単一のセッション内の異なる話者がより分離された新しい埋め込み空間に再マップされる。
改良された話者埋め込みのクラスタリング性能は,シミュレーションデータと実会議データの両方において,元の埋め込みよりも優れていた。
論文 参考訳(メタデータ) (2020-05-22T19:52:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。