論文の概要: Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for
Speaker Diarization
- arxiv url: http://arxiv.org/abs/2401.12850v1
- Date: Tue, 23 Jan 2024 15:35:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 15:22:28.038682
- Title: Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for
Speaker Diarization
- Title(参考訳): 話者ダイアリゼーションのためのオーバーラップ対応エンド・ツー・エンド教師付き階層グラフクラスタリング
- Authors: Prachi Singh, Sriram Ganapathy
- Abstract要約: グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案する。
提案したE-SHARCフレームワークは、最先端のダイアリゼーションシステムよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 41.24045486520547
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speaker diarization, the task of segmenting an audio recording based on
speaker identity, constitutes an important speech pre-processing step for
several downstream applications. The conventional approach to diarization
involves multiple steps of embedding extraction and clustering, which are often
optimized in an isolated fashion. While end-to-end diarization systems attempt
to learn a single model for the task, they are often cumbersome to train and
require large supervised datasets. In this paper, we propose an end-to-end
supervised hierarchical clustering algorithm based on graph neural networks
(GNN), called End-to-end Supervised HierARchical Clustering (E-SHARC). The
E-SHARC approach uses front-end mel-filterbank features as input and jointly
learns an embedding extractor and the GNN clustering module, performing
representation learning, metric learning, and clustering with end-to-end
optimization. Further, with additional inputs from an external overlap
detector, the E-SHARC approach is capable of predicting the speakers in the
overlapping speech regions. The experimental evaluation on several benchmark
datasets like AMI, VoxConverse and DISPLACE, illustrates that the proposed
E-SHARC framework improves significantly over the state-of-art diarization
systems.
- Abstract(参考訳): 話者識別に基づく音声録音のセグメント化タスクである話者ダイアリゼーションは、下流アプリケーションにおいて重要な音声前処理ステップを構成する。
ダイアリゼーションへの従来のアプローチは、しばしば孤立した方法で最適化される、複数ステップの埋め込み抽出とクラスタリングを含む。
エンドツーエンドのダイアリゼーションシステムはタスクの単一モデルを学習しようとするが、トレーニングが面倒で、大規模な教師付きデータセットを必要とすることが多い。
本稿では,グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案し,その手法をE-SHARC(End-to-end Supervised HierARchical Clustering)と呼ぶ。
E-SHARCアプローチでは、入力としてフロントエンドのme-filterbank機能を使用し、埋め込み抽出器とGNNクラスタリングモジュールを共同で学習し、表現学習、メトリック学習、クラスタリングをエンドツーエンドの最適化で実行している。
さらに、外部重なり検出器からの追加入力により、E-SHARCアプローチは重なり合う音声領域の話者を予測することができる。
AMI, VoxConverse, DISPLACE などのベンチマークデータセットに対する実験的評価は,提案したE-SHARC フレームワークが最先端のダイアリゼーションシステムよりも大幅に改善されていることを示している。
関連論文リスト
- Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances [24.142013877384603]
本稿では,新しい教師なしマルチモーダルクラスタリング手法 (UMC) を提案する。
UMCは、マルチモーダルデータのための拡張ビューを構築するためのユニークなアプローチを導入し、事前トレーニングを実行するために使用される。
我々は、最先端の手法よりもクラスタリングメトリクスの2-6%のスコアが顕著に改善され、この領域で最初の成功例となった。
論文 参考訳(メタデータ) (2024-05-21T13:24:07Z) - Supervised Hierarchical Clustering using Graph Neural Networks for
Speaker Diarization [41.30830281043803]
話者ダイアリゼーションのためのSupervised HierArchical gRaph Clusteringアルゴリズム(SHARC)を提案する。
本稿では,グラフニューラルネットワーク(GNN)を用いた階層構造を導入し,クラスタリングを行う。
教師付きクラスタリングは、ノード密度とエッジ存在確率を用いて、収束するまでセグメントをマージする。
論文 参考訳(メタデータ) (2023-02-24T16:16:41Z) - Highly Efficient Real-Time Streaming and Fully On-Device Speaker
Diarization with Multi-Stage Clustering [18.62774420511154]
異なる長さの入力に異なるクラスタリングアルゴリズムを使用するマルチステージクラスタリング戦略は、話者ダイアリゼーションアプリケーションの多面的課題に対処することができる。
この戦略は、CPU、メモリ、バッテリの予算が厳しいオンデバイススピーカーダイアリゼーションシステムのストリーミングに不可欠である。
論文 参考訳(メタデータ) (2022-10-25T01:20:24Z) - A Deep Dive into Deep Cluster [0.2578242050187029]
DeepClusterは、ビジュアル表現のシンプルでスケーラブルな教師なし事前トレーニングである。
本稿では,DeepClusterの収束と性能が,畳み込み層のランダムフィルタの品質と選択されたクラスタ数の相互作用に依存することを示す。
論文 参考訳(メタデータ) (2022-07-24T22:55:09Z) - Tight integration of neural- and clustering-based diarization through
deep unfolding of infinite Gaussian mixture model [84.57667267657382]
本稿では,統合フレームワークにトレーニング可能なクラスタリングアルゴリズムを導入する。
話者埋め込みはトレーニング中に最適化され、iGMMクラスタリングに適合する。
実験の結果,提案手法はダイアリゼーション誤差率において従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-02-14T07:45:21Z) - Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-07-14T05:38:48Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。