論文の概要: Investigating Confidence Estimation Measures for Speaker Diarization
- arxiv url: http://arxiv.org/abs/2406.17124v1
- Date: Mon, 24 Jun 2024 20:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 18:21:22.725606
- Title: Investigating Confidence Estimation Measures for Speaker Diarization
- Title(参考訳): 話者ダイアリゼーションのための信頼度推定手法の検討
- Authors: Anurag Chowdhury, Abhinav Misra, Mark C. Fuhs, Monika Woszczyna,
- Abstract要約: 話者ダイアリゼーションシステムは、話者のアイデンティティに基づいた会話記録をセグメント化する。
話者ダイアリゼーションエラーは、話者のアイデンティティに依存する下流システムに伝播し、悪影響を及ぼす可能性がある。
これらのエラーを軽減する方法の1つは、下流システムにセグメントレベルのダイアリゼーション信頼スコアを提供することである。
- 参考スコア(独自算出の注目度): 4.679826697518427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker diarization systems segment a conversation recording based on the speakers' identity. Such systems can misclassify the speaker of a portion of audio due to a variety of factors, such as speech pattern variation, background noise, and overlapping speech. These errors propagate to, and can adversely affect, downstream systems that rely on the speaker's identity, such as speaker-adapted speech recognition. One of the ways to mitigate these errors is to provide segment-level diarization confidence scores to downstream systems. In this work, we investigate multiple methods for generating diarization confidence scores, including those derived from the original diarization system and those derived from an external model. Our experiments across multiple datasets and diarization systems demonstrate that the most competitive confidence score methods can isolate ~30% of the diarization errors within segments with the lowest ~10% of confidence scores.
- Abstract(参考訳): 話者ダイアリゼーションシステムは、話者のアイデンティティに基づいた会話記録をセグメント化する。
このようなシステムは、音声パターンの変動、背景雑音、重複音声などの様々な要因により、音声の一部の話者を誤分類することができる。
これらの誤りは、話者適応音声認識のような話者のアイデンティティに依存する下流システムに伝播し、悪影響を及ぼす可能性がある。
これらのエラーを軽減する方法の1つは、下流システムにセグメントレベルのダイアリゼーション信頼スコアを提供することである。
本研究では,従来のダイアリゼーションシステムから派生したダイアリゼーション信頼度と,外部モデルから派生したダイアリゼーション信頼度スコアを生成する複数の手法について検討する。
複数のデータセットおよびダイアリゼーションシステムに対する実験により、最も競争力のある信頼スコア法は、最も低い信頼スコアの10%のセグメントでダイアリゼーション誤差の30%を分離できることを示した。
関連論文リスト
- Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Automatic Evaluation of Speaker Similarity [0.0]
本研究では,人間の知覚スコアと一致した話者類似度評価のための新しい自動評価手法を提案する。
実験の結果, 話者埋め込みから話者類似度MUSHRAスコアを0.96精度で予測し, 発話レベルでは0.78ピアソンスコアまで有意な相関関係を示すことができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T11:23:16Z) - Bi-LSTM Scoring Based Similarity Measurement with Agglomerative
Hierarchical Clustering (AHC) for Speaker Diarization [0.0]
2つの話者間の典型的な会話は、声が重なり合う部分からなり、互いに中断したり、複数の文間での会話を止めたりする。
ダイアリゼーション技術の最近の進歩は、話者ダイアリゼーションシステムを即興化するニューラルネットワークベースのアプローチを活用している。
類似度行列に存在する要素を推定するための双方向長短期記憶ネットワークを提案する。
論文 参考訳(メタデータ) (2022-05-19T17:20:51Z) - Self-supervised Speaker Recognition Training Using Human-Machine
Dialogues [22.262550043863445]
顧客とスマートスピーカーデバイス間の対話を利用して、話者認識モデルを事前訓練する方法を検討する。
本稿では,その音響的均一性に基づいて対話から選択的に学習する効果的な拒絶機構を提案する。
実験により,提案手法は従来よりも優れた性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-02-07T19:44:54Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Improving on-device speaker verification using federated learning with
privacy [5.321241042620525]
話者特性に関する情報は、話者認識精度を向上させる側情報として有用である。
本稿では,プライバシ保護学習が話者認証システムをどのように改善するかを検討する。
論文 参考訳(メタデータ) (2020-08-06T13:37:14Z) - Segment Aggregation for short utterances speaker verification using raw
waveforms [47.41124427552161]
本稿では,短い発話に対する話者検証の性能劣化を補う手法を提案する。
提案手法はアンサンブルに基づく設計を採用し,話者検証システムの安定性と精度を向上させる。
論文 参考訳(メタデータ) (2020-05-07T08:57:22Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。