論文の概要: Towards Neural Diarization for Unlimited Numbers of Speakers Using
Global and Local Attractors
- arxiv url: http://arxiv.org/abs/2107.01545v1
- Date: Sun, 4 Jul 2021 05:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 14:50:23.585665
- Title: Towards Neural Diarization for Unlimited Numbers of Speakers Using
Global and Local Attractors
- Title(参考訳): グローバル・ローカル・トラクターを用いた話者数無制限のニューラルダイアリゼーションに向けて
- Authors: Shota Horiguchi, Shinji Watanabe, Paola Garcia, Yawen Xue, Yuki
Takashima, Yohei Kawaguchi
- Abstract要約: 本稿では,アトラクタをベースとしたエンドツーエンドダイアリゼーションに,教師なしクラスタリングプロセスを導入する。
提案手法はCALLHOME, DIHARD II, DIHARD IIIデータセットで11.84 %, 28.33 %, 19.49 %を達成した。
- 参考スコア(独自算出の注目度): 51.01295414889487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attractor-based end-to-end diarization is achieving comparable accuracy to
the carefully tuned conventional clustering-based methods on challenging
datasets. However, the main drawback is that it cannot deal with the case where
the number of speakers is larger than the one observed during training. This is
because its speaker counting relies on supervised learning. In this work, we
introduce an unsupervised clustering process embedded in the attractor-based
end-to-end diarization. We first split a sequence of frame-wise embeddings into
short subsequences and then perform attractor-based diarization for each
subsequence. Given subsequence-wise diarization results, inter-subsequence
speaker correspondence is obtained by unsupervised clustering of the vectors
computed from the attractors from all the subsequences. This makes it possible
to produce diarization results of a large number of speakers for the whole
recording even if the number of output speakers for each subsequence is
limited. Experimental results showed that our method could produce accurate
diarization results of an unseen number of speakers. Our method achieved 11.84
%, 28.33 %, and 19.49 % on the CALLHOME, DIHARD II, and DIHARD III datasets,
respectively, each of which is better than the conventional end-to-end
diarization methods.
- Abstract(参考訳): トラクタベースのエンドツーエンドダイアリゼーションは、挑戦的なデータセットに対して、慎重に調整された従来のクラスタリングベースの方法と同等の精度を実現している。
しかし、主な欠点は、訓練中に観察した話者数よりも話者数が多い場合には対応できないことである。
これは、話者カウントが教師付き学習に依存しているためである。
本稿では,アトラクタベースのエンドツーエンドダイアリゼーションに組み込まれた教師なしクラスタリングプロセスを提案する。
まず、フレームワイズ埋め込みの列を短いサブシーケンスに分割し、各サブシーケンスに対してアトラクタベースのダイアリゼーションを実行する。
サブシーケンスワイドダイアリゼーション結果が与えられた場合、サブシーケンス間話者対応は、すべてのサブシーケンスからアトラクタから計算されたベクトルの教師なしクラスタリングによって得られる。
これにより、サブシーケンス毎の出力スピーカ数に制限がある場合でも、記録全体において多数のスピーカのダイアリゼーション結果を生成することができる。
実験の結果,提案手法は未知話者の正確なダイアリゼーション結果が得られることがわかった。
本手法は,callhome,dihard ii,dihard iiiデータセットにおいて,11.84 %,28.33 %,19.49 %を達成した。
関連論文リスト
- Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for
Speaker Diarization [41.24045486520547]
グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案する。
提案したE-SHARCフレームワークは、最先端のダイアリゼーションシステムよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-23T15:35:44Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Reformulating Speaker Diarization as Community Detection With Emphasis
On Topological Structure [10.508187462682308]
クラスタリングベースの話者ダイアリゼーションは、現実において主要なアプローチの1つとして定着している。
本稿では,クラスタリングに基づくダイアリゼーションをコミュニティ検出問題とみなす。
論文 参考訳(メタデータ) (2022-04-26T07:18:05Z) - Coarse-to-Fine Recursive Speech Separation for Unknown Number of
Speakers [8.380514397417457]
本稿では,マルチパス音源抽出問題として,未知話者数による音声分離を定式化する。
実験の結果,提案手法は話者数が異なるWSJ0データセット上で,最先端のパフォーマンスをアーカイブしていることがわかった。
論文 参考訳(メタデータ) (2022-03-30T04:45:34Z) - Tight integration of neural- and clustering-based diarization through
deep unfolding of infinite Gaussian mixture model [84.57667267657382]
本稿では,統合フレームワークにトレーニング可能なクラスタリングアルゴリズムを導入する。
話者埋め込みはトレーニング中に最適化され、iGMMクラスタリングに適合する。
実験の結果,提案手法はダイアリゼーション誤差率において従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-02-14T07:45:21Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Effects of Word-frequency based Pre- and Post- Processings for Audio
Captioning [49.41766997393417]
音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,ポストプロセッシングという3つの要素を組み合わせる。
このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
論文 参考訳(メタデータ) (2020-09-24T01:07:33Z) - Neural Speaker Diarization with Speaker-Wise Chain Rule [45.60980782843576]
話者ダイアリゼーションのための話者ワイド条件付き推論手法を提案する。
提案手法は,可変話者数で精度よくダイアリゼーション結果を生成することができることを示す。
論文 参考訳(メタデータ) (2020-06-02T17:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。