論文の概要: Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario
- arxiv url: http://arxiv.org/abs/2203.09767v1
- Date: Fri, 18 Mar 2022 06:40:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 16:11:26.891281
- Title: Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario
- Title(参考訳): 話者埋め込み認識型ニューラルダイアリゼーション:会議シナリオにおけるオーバーラップ音声ダイアリゼーションのための新しい枠組み
- Authors: Zhihao Du, Shiliang Zhang, Siqi Zheng, Zhijie Yan
- Abstract要約: 重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
- 参考スコア(独自算出の注目度): 51.5031673695118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we reformulate overlapped speech diarization as a single-label
prediction problem, which is always treated as a multi-label classification
task in previous studies. Specifically, the multiple labels of each frame are
encoded into a single label with the power set, which represents the possible
combinations of different speakers. Through this formulation, we propose the
speaker embedding-aware neural diarization (SEND) system. In SEND, the speech
encoder, speaker encoder, similarity scores, and post-processing network are
optimized to predict the power set encoded labels according to the similarities
between speech features and speaker embeddings. Experimental results show that
our method significantly outperforms the variational Bayesian hidden Markov
model-based clustering algorithm (VBx). Besides, the proposed method has two
benefits compared with the target-speaker voice activity detection (TSVAD).
First, SEND can achieve lower diarization error rates in the real meeting
scenario. Second, when the training data has a high overlap ratio, the learning
process of SEND is more stable than TSVAD.
- Abstract(参考訳): 本稿では,重複音声ダイアリゼーションを単一ラベル予測問題として再編成し,先行研究において常にマルチラベル分類課題として扱われる。
具体的には、各フレームの複数のラベルは、異なる話者の可能な組み合わせを表すパワーセットを持つ単一のラベルにエンコードされる。
この定式化を通じて,話者埋め込み型ニューラルダイアリゼーション(SEND)システムを提案する。
SENDでは、音声特徴と話者埋め込みの類似性に応じて、音声エンコーダ、話者エンコーダ、類似度スコア、後処理ネットワークを最適化し、パワーセットされたラベルを予測する。
実験の結果,本手法は変分ベイズ型隠れマルコフモデルに基づくクラスタリングアルゴリズム (vbx) を有意に上回っている。
また,提案手法は,tsvad(target-speaker voice activity detection)と比較して2つの利点がある。
まず、SENDは実際のミーティングシナリオで低いダイアリゼーションエラー率を達成することができる。
第2に、トレーニングデータが重複率が高い場合、SENDの学習プロセスはSVADよりも安定である。
関連論文リスト
- Mixture Encoder Supporting Continuous Speech Separation for Meeting
Recognition [15.610658840718607]
音声分離によって導入された人工物の効果を緩和する混合エンコーダを提案する。
このアプローチを、任意の数の話者と動的重複を含む、より自然なミーティングコンテキストに拡張する。
実験では、LibriCSSデータセット上での最先端のパフォーマンスを示し、混合エンコーダの利点を強調した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - Bi-LSTM Scoring Based Similarity Measurement with Agglomerative
Hierarchical Clustering (AHC) for Speaker Diarization [0.0]
2つの話者間の典型的な会話は、声が重なり合う部分からなり、互いに中断したり、複数の文間での会話を止めたりする。
ダイアリゼーション技術の最近の進歩は、話者ダイアリゼーションシステムを即興化するニューラルネットワークベースのアプローチを活用している。
類似度行列に存在する要素を推定するための双方向長短期記憶ネットワークを提案する。
論文 参考訳(メタデータ) (2022-05-19T17:20:51Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。