論文の概要: MK-SGC-SC: Multiple Kernel guided Sparse Graph Construction in Spectral Clustering for Unsupervised Speaker Diarization
- arxiv url: http://arxiv.org/abs/2601.19946v1
- Date: Sat, 24 Jan 2026 09:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.598099
- Title: MK-SGC-SC: Multiple Kernel guided Sparse Graph Construction in Spectral Clustering for Unsupervised Speaker Diarization
- Title(参考訳): MK-SGC-SC: 教師なし話者ダイアリゼーションのためのスペクトルクラスタリングにおける多重カーネル誘導スパースグラフ構築
- Authors: Nikhil Raghav, Avisek Gupta, Swagatam Das, Md Sahidullah,
- Abstract要約: 話者ダイアリゼーションは、音声録音を個々の話者に対応する領域に分割することを目的としている。
本研究では,話者埋め込みのマルチカーネル類似度を測定することで,スペクトルクラスタリングのためのスパースグラフを構築するのに十分であることを示す。
実験により、DIHARD-III、AMI、VoxConverse corporaの様々な挑戦環境における教師なし話者ダイアリゼーションにおいて、提案手法が優れていることが示された。
- 参考スコア(独自算出の注目度): 25.78243411853038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker diarization aims to segment audio recordings into regions corresponding to individual speakers. Although unsupervised speaker diarization is inherently challenging, the prospect of identifying speaker regions without pretraining or weak supervision motivates research on clustering techniques. In this work, we share the notable observation that measuring multiple kernel similarities of speaker embeddings to thereafter craft a sparse graph for spectral clustering in a principled manner is sufficient to achieve state-of-the-art performances in a fully unsupervised setting. Specifically, we consider four polynomial kernels and a degree one arccosine kernel to measure similarities in speaker embeddings, using which sparse graphs are constructed in a principled manner to emphasize local similarities. Experiments show the proposed approach excels in unsupervised speaker diarization over a variety of challenging environments in the DIHARD-III, AMI, and VoxConverse corpora. To encourage further research, our implementations are available at https://github.com/nikhilraghav29/MK-SGC-SC.
- Abstract(参考訳): 話者ダイアリゼーションは、音声録音を個々の話者に対応する領域に分割することを目的としている。
教師なし話者ダイアリゼーションは本質的には難しいが、事前訓練や監督の弱さを伴わない話者領域を特定することは、クラスタリング技術の研究を動機付けている。
本研究では, 話者埋め込みのマルチカーネル類似度を測定し, その後, スペクトルクラスタリングのためのスパースグラフを原理的に作成することにより, 教師なし環境下での最先端性能を実現するのに十分であることを示す。
具体的には、4つの多項式カーネルと次数1のアルコシンカーネルを話者埋め込みにおける類似度を測定することを考える。
実験により、DIHARD-III、AMI、VoxConverse corporaの様々な挑戦環境における教師なし話者ダイアリゼーションにおいて、提案手法が優れていることが示された。
さらなる研究を促進するため、我々の実装はhttps://github.com/nikhilraghav29/MK-SGC-SCで公開されています。
関連論文リスト
- Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC [73.23245793460275]
マルチトーカー音声認識は、重複する音声を遠ざけ、書き起こす際、独特な課題に直面している。
本稿では,MTASRにSOT(Serialized Output Training)を取り入れた場合の話者の絡み合いにおける接続性時間分類(CTC)の役割について検討する。
本研究では,ベイズリスクCTCフレームワークに基づく話者認識型CTC(SACTC)学習目標を提案する。
論文 参考訳(メタデータ) (2024-09-19T01:26:33Z) - Assessing the Robustness of Spectral Clustering for Deep Speaker Diarization [7.052822052763606]
本研究は,同領域話者ダイアリゼーションとクロスドメイン話者ダイアリゼーションの両方に対するスペクトルクラスタリングについて,徹底的に検討する。
2つの異なる領域条件間の性能差がスペクトルクラスタリングの役割に起因することが観察された。
論文 参考訳(メタデータ) (2024-03-21T10:49:54Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - SAMO: Speaker Attractor Multi-Center One-Class Learning for Voice
Anti-Spoofing [22.47152800242178]
アンチスプーフィングシステムは、自動話者検証(ASV)システムにとって重要な補助装置である。
本稿では,複数の話者を引き付けるために,ボナ・フェイド音声をクラスタリングする話者誘引型マルチセンター一級学習(SAMO)を提案する。
提案システムは,ASVspoof 2019 LA評価セットにおいて,EER(等誤差率)が38%向上し,既存の最先端シングルシステムよりも優れていた。
論文 参考訳(メタデータ) (2022-11-04T19:31:33Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Diarisation using location tracking with agglomerative clustering [42.13772744221499]
本稿では,Agglomerative Hierarchical Clustering (AHC)ダイアリゼーションフレームワークにおける話者の動きを明示的にモデル化する。
実験により、提案手法は、Microsoftリッチミーティングの書き起こしタスクを改善することができることが示された。
論文 参考訳(メタデータ) (2021-09-22T08:54:10Z) - Towards Neural Diarization for Unlimited Numbers of Speakers Using
Global and Local Attractors [51.01295414889487]
本稿では,アトラクタをベースとしたエンドツーエンドダイアリゼーションに,教師なしクラスタリングプロセスを導入する。
提案手法はCALLHOME, DIHARD II, DIHARD IIIデータセットで11.84 %, 28.33 %, 19.49 %を達成した。
論文 参考訳(メタデータ) (2021-07-04T05:34:21Z) - U-vectors: Generating clusterable speaker embedding from unlabeled data [0.0]
本稿では,未ラベルデータを扱う話者認識戦略を提案する。
小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。
提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-02-07T18:00:09Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。