論文の概要: Supervised Hierarchical Clustering using Graph Neural Networks for
Speaker Diarization
- arxiv url: http://arxiv.org/abs/2302.12716v1
- Date: Fri, 24 Feb 2023 16:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 12:59:35.451134
- Title: Supervised Hierarchical Clustering using Graph Neural Networks for
Speaker Diarization
- Title(参考訳): 話者ダイアリゼーションのためのグラフニューラルネットワークを用いた階層クラスタリング
- Authors: Prachi Singh, Amrit Kaul, Sriram Ganapathy
- Abstract要約: 話者ダイアリゼーションのためのSupervised HierArchical gRaph Clusteringアルゴリズム(SHARC)を提案する。
本稿では,グラフニューラルネットワーク(GNN)を用いた階層構造を導入し,クラスタリングを行う。
教師付きクラスタリングは、ノード密度とエッジ存在確率を用いて、収束するまでセグメントをマージする。
- 参考スコア(独自算出の注目度): 41.30830281043803
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Conventional methods for speaker diarization involve windowing an audio file
into short segments to extract speaker embeddings, followed by an unsupervised
clustering of the embeddings. This multi-step approach generates speaker
assignments for each segment. In this paper, we propose a novel Supervised
HierArchical gRaph Clustering algorithm (SHARC) for speaker diarization where
we introduce a hierarchical structure using Graph Neural Network (GNN) to
perform supervised clustering. The supervision allows the model to update the
representations and directly improve the clustering performance, thus enabling
a single-step approach for diarization. In the proposed work, the input segment
embeddings are treated as nodes of a graph with the edge weights corresponding
to the similarity scores between the nodes. We also propose an approach to
jointly update the embedding extractor and the GNN model to perform end-to-end
speaker diarization (E2E-SHARC). During inference, the hierarchical clustering
is performed using node densities and edge existence probabilities to merge the
segments until convergence. In the diarization experiments, we illustrate that
the proposed E2E-SHARC approach achieves 53% and 44% relative improvements over
the baseline systems on benchmark datasets like AMI and Voxconverse,
respectively.
- Abstract(参考訳): 従来の話者ダイアリゼーション手法では、オーディオファイルを短いセグメントにウィンドウ化して話者埋め込みを抽出し、次いで教師なしのクラスタリングを行う。
この多段階アプローチは各セグメントの話者割当を生成する。
本稿では,教師付きクラスタリングを行うために,グラフニューラルネットワーク(GNN)を用いた階層構造を導入し,話者ダイアリゼーションのためのSupervised HierArchical gRaph Clusteringアルゴリズム(SHARC)を提案する。
モデルが表現を更新し、クラスタリングのパフォーマンスを直接改善することで、ダイアリゼーションのための単一ステップのアプローチが可能になる。
提案手法では,入力セグメントの埋め込みを,ノード間の類似点に対応するエッジ重み付きグラフのノードとして扱う。
また,埋め込み抽出器とGNNモデルを併用してエンドツーエンド話者ダイアリゼーション(E2E-SHARC)を行う手法を提案する。
推論中、ノード密度とエッジ存在確率を用いて階層的クラスタリングを行い、収束するまでセグメントをマージする。
ダイアリゼーション実験では,提案手法がamiやvoxconverseといったベンチマークデータセットのベースラインシステムに対して,それぞれ53%と44%の相対的な改善を達成していることを示す。
関連論文リスト
- Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for
Speaker Diarization [41.24045486520547]
グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案する。
提案したE-SHARCフレームワークは、最先端のダイアリゼーションシステムよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-23T15:35:44Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Progressive Sub-Graph Clustering Algorithm for Semi-Supervised Domain
Adaptation Speaker Verification [17.284276598514502]
マルチモデル投票と二重ガウスに基づく評価に基づく新しいプログレッシブサブグラフクラスタリングアルゴリズムを提案する。
破滅的なクラスタリング結果を防止するため、段階的にkを増大させ、二重ガウスに基づく評価アルゴリズムを用いる反復的手法を採用する。
論文 参考訳(メタデータ) (2023-05-22T04:26:18Z) - Learn to Cluster Faces with Better Subgraphs [13.511058277653122]
顔クラスタリングは、巨大な未ラベルの顔データに擬似ラベルを提供することができる。
既存のクラスタリング手法は、均一な閾値や学習されたカットオフ位置に基づいて、サブグラフ内の特徴を集約する。
本研究は、ノイズを著しく低減できる効率的な近傍対応サブグラフ調整法を提案する。
論文 参考訳(メタデータ) (2023-04-21T09:18:55Z) - DeepCut: Unsupervised Segmentation using Graph Neural Networks
Clustering [6.447863458841379]
本研究では,従来のクラスタリング手法を置き換える軽量グラフニューラルネットワーク(GNN)を提案する。
既存の手法とは異なり、GNNはローカル画像特徴と生特徴とのペアワイズ親和性の両方を入力として取ります。
画像セグメンテーションGNNを訓練するための自己教師付き損失関数として,古典的クラスタリングの目的を定式化する方法を実証する。
論文 参考訳(メタデータ) (2022-12-12T12:31:46Z) - DeepCluE: Enhanced Image Clustering via Multi-layer Ensembles in Deep
Neural Networks [53.88811980967342]
本稿では,Ensembles (DeepCluE) を用いたDeep Clusteringを提案する。
ディープニューラルネットワークにおける複数のレイヤのパワーを活用することで、ディープクラスタリングとアンサンブルクラスタリングのギャップを埋める。
6つの画像データセットの実験結果から、最先端のディープクラスタリングアプローチに対するDeepCluEの利点が確認されている。
論文 参考訳(メタデータ) (2022-06-01T09:51:38Z) - A Variational Edge Partition Model for Supervised Graph Representation
Learning [51.30365677476971]
本稿では,重なり合うノード群間の相互作用を集約することで,観測されたエッジがどのように生成されるかをモデル化するグラフ生成プロセスを提案する。
それぞれのエッジを複数のコミュニティ固有の重み付きエッジの和に分割し、コミュニティ固有のGNNを定義する。
エッジを異なるコミュニティに分割するGNNベースの推論ネットワーク,これらのコミュニティ固有のGNN,およびコミュニティ固有のGNNを最終分類タスクに組み合わせたGNNベースの予測器を共同で学習するために,変分推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T14:37:50Z) - Self-supervised Contrastive Attributed Graph Clustering [110.52694943592974]
我々は,自己教師型コントラストグラフクラスタリング(SCAGC)という,新たな属性グラフクラスタリングネットワークを提案する。
SCAGCでは,不正確なクラスタリングラベルを活用することで,ノード表現学習のための自己教師付きコントラスト損失を設計する。
OOSノードでは、SCAGCはクラスタリングラベルを直接計算できる。
論文 参考訳(メタデータ) (2021-10-15T03:25:28Z) - Learning Hierarchical Graph Neural Networks for Image Clustering [81.5841862489509]
本稿では,画像の集合を未知の個数にクラスタリングする方法を学ぶ階層型グラフニューラルネットワーク(GNN)モデルを提案する。
我々の階層的なGNNは、階層の各レベルで予測される連結コンポーネントをマージして、次のレベルで新しいグラフを形成するために、新しいアプローチを用いています。
論文 参考訳(メタデータ) (2021-07-03T01:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。