論文の概要: Unsupervised Speaker Diarization that is Agnostic to Language,
Overlap-Aware, and Tuning Free
- arxiv url: http://arxiv.org/abs/2207.12504v1
- Date: Mon, 25 Jul 2022 20:07:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:35:35.020390
- Title: Unsupervised Speaker Diarization that is Agnostic to Language,
Overlap-Aware, and Tuning Free
- Title(参考訳): 言語、オーバーラップ・アウェア、チューニング自由に依存しない教師なし話者ダイアリゼーション
- Authors: M. Iftekhar Tanveer and Diego Casabuena and Jussi Karlgren and Rosie
Jones
- Abstract要約: 言語固有のコンポーネントに依存しないダイアリゼーションのための教師なし手法を提案する。
当社のアプローチでは,ポッドキャストデータによるGoogle Cloud Platformに対する純度(Fスコアでは34%)が79%向上している。
- 参考スコア(独自算出の注目度): 5.037065924086945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Podcasts are conversational in nature and speaker changes are frequent --
requiring speaker diarization for content understanding. We propose an
unsupervised technique for speaker diarization without relying on
language-specific components. The algorithm is overlap-aware and does not
require information about the number of speakers. Our approach shows 79%
improvement on purity scores (34% on F-score) against the Google Cloud Platform
solution on podcast data.
- Abstract(参考訳): ポッドキャストは本質的に会話型であり、話者の変化は、コンテンツ理解のための話者ダイアリゼーションを必要とすることが多い。
言語固有のコンポーネントに依存しない話者ダイアリゼーションのための教師なし手法を提案する。
このアルゴリズムは重複認識であり、話者数に関する情報を必要としない。
ポッドキャストデータによるgoogle cloud platformソリューションに対する純度スコア(f-scoreでは34%)の79%の改善を示した。
関連論文リスト
- Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Enhancing Zero-Shot Many to Many Voice Conversion with Self-Attention
VAE [8.144263449781967]
変分自動エンコーダ(VAE)は、音声の発声を話者識別と言語内容の潜伏埋め込みに分解する有効なニューラルネットワークアーキテクチャである。
本研究では,VAEのデコーダの適切な位置から,変換音声を生成する際に,非局所情報を組み込む自己アテンション層を付加した。
論文 参考訳(メタデータ) (2022-03-30T03:52:42Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - U-vectors: Generating clusterable speaker embedding from unlabeled data [0.0]
本稿では,未ラベルデータを扱う話者認識戦略を提案する。
小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。
提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-02-07T18:00:09Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Leveraging speaker attribute information using multi task learning for
speaker verification and diarization [33.60058873783114]
対象アプリケーションに不適合な音声コーパスに対してのみ利用できる場合であっても,補助ラベル情報を利用するためのフレームワークを提案する。
本研究では,2種類の話者属性情報を活用することで,検証作業とダイアリゼーション作業の両方において,深層話者埋め込みの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-27T13:10:51Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。