論文の概要: Neural Speaker Diarization with Speaker-Wise Chain Rule
- arxiv url: http://arxiv.org/abs/2006.01796v1
- Date: Tue, 2 Jun 2020 17:28:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 00:58:41.603878
- Title: Neural Speaker Diarization with Speaker-Wise Chain Rule
- Title(参考訳): 話者連鎖規則に基づくニューラル話者ダイアリゼーション
- Authors: Yusuke Fujita, Shinji Watanabe, Shota Horiguchi, Yawen Xue, Jing Shi,
Kenji Nagamatsu
- Abstract要約: 話者ダイアリゼーションのための話者ワイド条件付き推論手法を提案する。
提案手法は,可変話者数で精度よくダイアリゼーション結果を生成することができることを示す。
- 参考スコア(独自算出の注目度): 45.60980782843576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker diarization is an essential step for processing multi-speaker audio.
Although an end-to-end neural diarization (EEND) method achieved
state-of-the-art performance, it is limited to a fixed number of speakers. In
this paper, we solve this fixed number of speaker issue by a novel speaker-wise
conditional inference method based on the probabilistic chain rule. In the
proposed method, each speaker's speech activity is regarded as a single random
variable, and is estimated sequentially conditioned on previously estimated
other speakers' speech activities. Similar to other sequence-to-sequence
models, the proposed method produces a variable number of speakers with a stop
sequence condition. We evaluated the proposed method on multi-speaker audio
recordings of a variable number of speakers. Experimental results show that the
proposed method can correctly produce diarization results with a variable
number of speakers and outperforms the state-of-the-art end-to-end speaker
diarization methods in terms of diarization error rate.
- Abstract(参考訳): 話者ダイアリゼーションはマルチスピーカ音声を処理するための重要なステップである。
エンドツーエンドのニューラルダイアリゼーション(EEND)手法は最先端の性能を達成したが、定数の話者に限られている。
本稿では,確率的連鎖則に基づく新しい話者条件付き推論手法により,この固定数の話者問題を解く。
提案手法では,各話者の発話活動は単一確率変数と見なされ,前述した他の話者の発話活動に基づいて順次条件付で推定される。
他のシーケンスからシーケンスへのモデルと同様に、提案手法は停止シーケンス条件を持つ可変数の話者を生成する。
可変話者のマルチスピーカ音声記録における提案手法の評価を行った。
実験結果から,提案手法は可変話者数によるダイアリゼーション結果を正しく生成し,ダイアリゼーション誤差率の観点から,最先端のエンドツーエンド話者ダイアリゼーション法より優れることが示された。
関連論文リスト
- Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS [36.023566245506046]
マルチ話者音声を対象としたヒューマン・イン・ザ・ループ話者適応手法を提案する。
提案手法では, ユーザに対して, 埋め込み空間内の線分上の点を選択するように繰り返し要求する逐次線探索アルゴリズムを用いる。
実験結果から,提案手法は客観的および主観的評価において従来の手法に匹敵する性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T11:08:05Z) - Coarse-to-Fine Recursive Speech Separation for Unknown Number of
Speakers [8.380514397417457]
本稿では,マルチパス音源抽出問題として,未知話者数による音声分離を定式化する。
実験の結果,提案手法は話者数が異なるWSJ0データセット上で,最先端のパフォーマンスをアーカイブしていることがわかった。
論文 参考訳(メタデータ) (2022-03-30T04:45:34Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Voice Separation with an Unknown Number of Multiple Speakers [113.91855071999298]
本稿では,複数の音声が同時に発声する混合音声系列を分離する手法を提案する。
新たな手法では、複数の処理ステップで音声を分離するように訓練されたゲートニューラルネットワークを使用し、各出力チャネルに固定された話者を維持する。
論文 参考訳(メタデータ) (2020-02-29T20:02:54Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。