論文の概要: Online Neural Diarization of Unlimited Numbers of Speakers
- arxiv url: http://arxiv.org/abs/2206.02432v1
- Date: Mon, 6 Jun 2022 08:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 17:16:01.808405
- Title: Online Neural Diarization of Unlimited Numbers of Speakers
- Title(参考訳): 話者数無制限のオンラインニューラルダイアリゼーション
- Authors: Shota Horiguchi, Shinji Watanabe, Paola Garcia, Yuki Takashima, Yohei
Kawaguchi
- Abstract要約: 本稿では,無数の話者に対して話者ダイアリゼーションを行う手法について述べる。
アクセサベースのEENDの話者の出力数は、経験的に上限づけられている。
EEND-GLAは、アトラクタベースのEENDに教師なしクラスタリングを導入することで、この問題を解決する。
- 参考スコア(独自算出の注目度): 34.465500195087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A method to perform offline and online speaker diarization for an unlimited
number of speakers is described in this paper. End-to-end neural diarization
(EEND) has achieved overlap-aware speaker diarization by formulating it as a
multi-label classification problem. It has also been extended for a flexible
number of speakers by introducing speaker-wise attractors. However, the output
number of speakers of attractor-based EEND is empirically capped; it cannot
deal with cases where the number of speakers appearing during inference is
higher than that during training because its speaker counting is trained in a
fully supervised manner. Our method, EEND-GLA, solves this problem by
introducing unsupervised clustering into attractor-based EEND. In the method,
the input audio is first divided into short blocks, then attractor-based
diarization is performed for each block, and finally the results of each blocks
are clustered on the basis of the similarity between locally-calculated
attractors. While the number of output speakers is limited within each block,
the total number of speakers estimated for the entire input can be higher than
the limitation. To use EEND-GLA in an online manner, our method also extends
the speaker-tracing buffer, which was originally proposed to enable online
inference of conventional EEND. We introduces a block-wise buffer update to
make the speaker-tracing buffer compatible with EEND-GLA. Finally, to improve
online diarization, our method improves the buffer update method and revisits
the variable chunk-size training of EEND. The experimental results demonstrate
that EEND-GLA can perform speaker diarization of an unseen number of speakers
in both offline and online inferences.
- Abstract(参考訳): 本稿では、無制限の話者に対してオフラインおよびオンライン話者ダイアリゼーションを行う方法について述べる。
エンドツーエンドのニューラルネットワークダイアリゼーション(eend)は、重複認識話者ダイアリゼーションをマルチラベル分類問題として定式化した。
また、スピーカーワイドアトラクションを導入することで、フレキシブルな数の話者にも拡張されている。
しかし、アトラクタベースのeendの話者の出力数は経験的に減少しており、話者カウントが完全に教師付きで訓練されているため、推論中に出現する話者数が訓練中の話者数よりも多い場合には対応できない。
提案手法であるEEND-GLAは、アトラクタベースのEENDに教師なしクラスタリングを導入することにより、この問題を解決する。
入力音声をまず短いブロックに分割し、次に各ブロックに対してアトラクタベースのダイアリゼーションを行い、最後に各ブロックの結果を局所的に計算されたアトラクタの類似性に基づいてクラスタ化する。
出力スピーカの数は各ブロック内で制限されるが、入力全体に対して推定される話者の総数は制限よりも大きい。
EEND-GLAをオンライン方式で使用するためには,従来のEENDのオンライン推論を可能にするために提案された話者追跡バッファも拡張する。
EEND-GLAと互換性のある話者追跡バッファを実現するため,ブロックワイズバッファを更新する。
最後に、オンラインダイアリゼーションを改善するため、バッファ更新法を改善し、EENDの可変チャンクサイズトレーニングを再検討する。
実験の結果,EEND-GLAはオフラインとオンラインの両方で,未知の話者数の話者ダイアリゼーションを行うことができた。
関連論文リスト
- Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Improved Prosodic Clustering for Multispeaker and Speaker-independent
Phoneme-level Prosody Control [48.3671993252296]
本稿では,F0の音素レベルの韻律制御手法と,複数話者による音声合成における持続時間について述べる。
マルチスピーカアーキテクチャモジュールをプロソディエンコーダに並列に組み込んだ自己回帰型アテンションベースモデルを用いる。
論文 参考訳(メタデータ) (2021-11-19T11:43:59Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - BW-EDA-EEND: Streaming End-to-End Neural Speaker Diarization for a
Variable Number of Speakers [20.22005716662987]
本稿では,多様な話者に対して段階的にデータを処理する新しいオンラインエンドツーエンド型ニューラルダイアリゼーションシステムBW-EDA-EENDを提案する。
無制限のBW-EDA-EENDでは、オフラインのEDA-EENDに比べて10秒のコンテキストサイズで最大2つの話者に対して中程度の劣化しか示さない。
音声が到着するとダイアリゼーション出力をブロック単位で生成する制限レイテンシBW-EDA-EENDに対して,オフラインクラスタリングシステムに匹敵する精度を示す。
論文 参考訳(メタデータ) (2020-11-05T06:42:31Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Neural Speaker Diarization with Speaker-Wise Chain Rule [45.60980782843576]
話者ダイアリゼーションのための話者ワイド条件付き推論手法を提案する。
提案手法は,可変話者数で精度よくダイアリゼーション結果を生成することができることを示す。
論文 参考訳(メタデータ) (2020-06-02T17:28:12Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。