論文の概要: Speaker Diarization with Overlapping Community Detection Using Graph Attention Networks and Label Propagation Algorithm
- arxiv url: http://arxiv.org/abs/2506.02610v1
- Date: Tue, 03 Jun 2025 08:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.488576
- Title: Speaker Diarization with Overlapping Community Detection Using Graph Attention Networks and Label Propagation Algorithm
- Title(参考訳): グラフ注意ネットワークとラベル伝搬アルゴリズムを用いた重複コミュニティ検出による話者ダイアリゼーション
- Authors: Zhaoyang Li, Jie Wang, XiaoXiao Li, Wangjie Li, Longjie Luo, Lin Li, Qingyang Hong,
- Abstract要約: 提案フレームワークは,(1)隣接ノードからの情報を集約して話者埋め込みとノード接続を洗練するグラフアテンションネットワーク,(2)複数のコミュニティラベルを各ノードに割り当て,同時クラスタリングと重複するコミュニティ検出を可能にするラベル伝搬アルゴリズム,の2つの主要コンポーネントから構成される。
実験結果から,提案手法はダイアリゼーション誤り率 (DER) を著しく低減し,Diacle Voice Activity Detection (VAD) を伴わないDIHARD-IIIデータセット上で,最先端の15.94%のDERを実現し,また11.07%の精度でオラクルVADを付加した。
- 参考スコア(独自算出の注目度): 28.940391846079116
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In speaker diarization, traditional clustering-based methods remain widely used in real-world applications. However, these methods struggle with the complex distribution of speaker embeddings and overlapping speech segments. To address these limitations, we propose an Overlapping Community Detection method based on Graph Attention networks and the Label Propagation Algorithm (OCDGALP). The proposed framework comprises two key components: (1) a graph attention network that refines speaker embeddings and node connections by aggregating information from neighboring nodes, and (2) a label propagation algorithm that assigns multiple community labels to each node, enabling simultaneous clustering and overlapping community detection. Experimental results show that the proposed method significantly reduces the Diarization Error Rate (DER), achieving a state-of-the-art 15.94% DER on the DIHARD-III dataset without oracle Voice Activity Detection (VAD), and an impressive 11.07% with oracle VAD.
- Abstract(参考訳): 話者ダイアリゼーションでは、従来のクラスタリングに基づく手法が現実世界のアプリケーションで広く使われている。
しかし、これらの手法は、話者埋め込みと重なり合う音声セグメントの複雑な分布に苦慮している。
これらの制約に対処するため,グラフアテンションネットワークとラベル伝搬アルゴリズム(OCDGALP)に基づく重複コミュニティ検出手法を提案する。
提案フレームワークは,(1)隣接ノードからの情報を集約して話者埋め込みとノード接続を洗練するグラフアテンションネットワーク,(2)複数のコミュニティラベルを各ノードに割り当て,同時クラスタリングと重複するコミュニティ検出を可能にするラベル伝搬アルゴリズム,の2つの主要コンポーネントから構成される。
実験の結果,提案手法はダイアリゼーション誤り率 (DER) を著しく低減し,VAD (Oracle Voice Activity Detection) を伴わないDIHARD-IIIデータセット上で,最先端の15.94%のDERを達成し,また11.07%の精度でオラクルVADを検出できることがわかった。
関連論文リスト
- Generalized Correspondence Matching via Flexible Hierarchical Refinement
and Patch Descriptor Distillation [13.802788788420175]
対応マッチングは多くのロボティクス応用において重要な役割を担っている。
本稿では,SoTA (State-of-the-art) のプラグ・アンド・プレイ対応手法であるDFM (Deep Feature Match) の限界に対処する。
提案手法は,それぞれ1,3,5画素に対する平均マッチング精度0.68,0.92,0.95の総合的な性能を実現する。
論文 参考訳(メタデータ) (2024-03-08T15:32:18Z) - Progressive Sub-Graph Clustering Algorithm for Semi-Supervised Domain
Adaptation Speaker Verification [17.284276598514502]
マルチモデル投票と二重ガウスに基づく評価に基づく新しいプログレッシブサブグラフクラスタリングアルゴリズムを提案する。
破滅的なクラスタリング結果を防止するため、段階的にkを増大させ、二重ガウスに基づく評価アルゴリズムを用いる反復的手法を採用する。
論文 参考訳(メタデータ) (2023-05-22T04:26:18Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - Learn to Cluster Faces with Better Subgraphs [13.511058277653122]
顔クラスタリングは、巨大な未ラベルの顔データに擬似ラベルを提供することができる。
既存のクラスタリング手法は、均一な閾値や学習されたカットオフ位置に基づいて、サブグラフ内の特徴を集約する。
本研究は、ノイズを著しく低減できる効率的な近傍対応サブグラフ調整法を提案する。
論文 参考訳(メタデータ) (2023-04-21T09:18:55Z) - Supervised Hierarchical Clustering using Graph Neural Networks for
Speaker Diarization [41.30830281043803]
話者ダイアリゼーションのためのSupervised HierArchical gRaph Clusteringアルゴリズム(SHARC)を提案する。
本稿では,グラフニューラルネットワーク(GNN)を用いた階層構造を導入し,クラスタリングを行う。
教師付きクラスタリングは、ノード密度とエッジ存在確率を用いて、収束するまでセグメントをマージする。
論文 参考訳(メタデータ) (2023-02-24T16:16:41Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Noise-robust Graph Learning by Estimating and Leveraging Pairwise
Interactions [123.07967420310796]
本稿では,グラフ上のノイズノード分類のためのペアワイズフレームワークを提案することにより,そのギャップを埋める。
PI-GNNは、ノイズの多いノードクラスラベルからのポイントワイズ学習に加えて、PIを一次学習プロキシとして依存している。
提案するフレームワークPI-GNNは,(1)PIラベルを適応的に推定する信頼度を考慮したPI推定モデル,(2)PIラベルを推定する疎結合トレーニング手法の2つの新しい構成要素に寄与する。
論文 参考訳(メタデータ) (2021-06-14T14:23:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。