論文の概要: End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization
- arxiv url: http://arxiv.org/abs/2401.12850v2
- Date: Mon, 02 Dec 2024 17:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 16:54:49.690064
- Title: End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization
- Title(参考訳): 話者ダイアリゼーションのためのエンドツーエンド階層グラフクラスタリング
- Authors: Prachi Singh, Sriram Ganapathy,
- Abstract要約: グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案する。
提案するE-SHARCフレームワークは,グラフベースのクラスタリング手法を用いて,競合ダイアリゼーション結果を提供する。
- 参考スコア(独自算出の注目度): 34.90908110610951
- License:
- Abstract: Speaker diarization, the task of segmenting an audio recording based on speaker identity, constitutes an important speech pre-processing step for several downstream applications.The conventional approach to diarization involves multiple steps of embedding extraction and clustering, which are often optimized in an isolated fashion. While end-to-end diarization systems attempt to learn a single model for the task, they are often cumbersome to train and require large supervised datasets. In this paper, we propose an end-to-end supervised hierarchical clustering algorithm based on graph neural networks (GNN), called End-to-end Supervised HierARchical Clustering (E-SHARC). The embedding extractor is initialized using a pre-trained x-vector model while the GNN model is trained initially using the x-vector embeddings from the pre-trained model. Finally, the E-SHARC model uses the front-end mel-filterbank features as input and jointly optimizes the embedding extractor and the GNN clustering module, performing representation learning, metric learning, and clustering with end-to-end optimization. Further, with additional inputs from an external overlap detector, the E-SHARC approach is capable of predicting the speakers in the overlapping speech regions. The experimental evaluation on benchmark datasets like AMI, Voxconverse and DISPLACE, illustrates that the proposed E-SHARC framework provides competitive diarization results using graph based clustering methods.
- Abstract(参考訳): 話者識別に基づく音声録音のセグメンテーションタスクである話者ダイアリゼーションは、複数の下流アプリケーションにおいて重要な音声前処理ステップを構成する。
エンドツーエンドのダイアリゼーションシステムは、タスクの単一モデルを学習しようとするが、トレーニングが面倒で、大規模な教師付きデータセットを必要とすることが多い。
本稿では,グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案し,その手法をE-SHARC(End-to-end Supervised HierARchical Clustering)と呼ぶ。
埋め込み抽出器は、事前訓練されたxベクトルモデルを用いて初期化され、一方、GNNモデルは、事前訓練されたモデルからのxベクトル埋め込みを用いて初期化される。
最後に、E-SHARCモデルでは、フロントエンドのmel-filterbank機能を入力として使用し、埋め込み抽出器とGNNクラスタリングモジュールを共同で最適化し、表現学習、メトリック学習、クラスタリングをエンドツーエンドの最適化で実行する。
さらに、外部重なり検出器からの追加入力により、E-SHARCアプローチは重なり合う音声領域の話者を予測することができる。
AMI, Voxconverse, DISPLACE などのベンチマークデータセットに対する実験的評価は,提案したE-SHARC フレームワークがグラフベースのクラスタリング手法を用いて競合ダイアリゼーション結果を提供することを示す。
関連論文リスト
- Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances [24.142013877384603]
本稿では,新しい教師なしマルチモーダルクラスタリング手法 (UMC) を提案する。
UMCは、マルチモーダルデータのための拡張ビューを構築するためのユニークなアプローチを導入し、事前トレーニングを実行するために使用される。
我々は、最先端の手法よりもクラスタリングメトリクスの2-6%のスコアが顕著に改善され、この領域で最初の成功例となった。
論文 参考訳(メタデータ) (2024-05-21T13:24:07Z) - Supervised Hierarchical Clustering using Graph Neural Networks for
Speaker Diarization [41.30830281043803]
話者ダイアリゼーションのためのSupervised HierArchical gRaph Clusteringアルゴリズム(SHARC)を提案する。
本稿では,グラフニューラルネットワーク(GNN)を用いた階層構造を導入し,クラスタリングを行う。
教師付きクラスタリングは、ノード密度とエッジ存在確率を用いて、収束するまでセグメントをマージする。
論文 参考訳(メタデータ) (2023-02-24T16:16:41Z) - Highly Efficient Real-Time Streaming and Fully On-Device Speaker
Diarization with Multi-Stage Clustering [18.62774420511154]
異なる長さの入力に異なるクラスタリングアルゴリズムを使用するマルチステージクラスタリング戦略は、話者ダイアリゼーションアプリケーションの多面的課題に対処することができる。
この戦略は、CPU、メモリ、バッテリの予算が厳しいオンデバイススピーカーダイアリゼーションシステムのストリーミングに不可欠である。
論文 参考訳(メタデータ) (2022-10-25T01:20:24Z) - A Deep Dive into Deep Cluster [0.2578242050187029]
DeepClusterは、ビジュアル表現のシンプルでスケーラブルな教師なし事前トレーニングである。
本稿では,DeepClusterの収束と性能が,畳み込み層のランダムフィルタの品質と選択されたクラスタ数の相互作用に依存することを示す。
論文 参考訳(メタデータ) (2022-07-24T22:55:09Z) - Tight integration of neural- and clustering-based diarization through
deep unfolding of infinite Gaussian mixture model [84.57667267657382]
本稿では,統合フレームワークにトレーニング可能なクラスタリングアルゴリズムを導入する。
話者埋め込みはトレーニング中に最適化され、iGMMクラスタリングに適合する。
実験の結果,提案手法はダイアリゼーション誤差率において従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-02-14T07:45:21Z) - Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-07-14T05:38:48Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。