論文の概要: Speaker Recognition in the Wild
- arxiv url: http://arxiv.org/abs/2205.02475v1
- Date: Thu, 5 May 2022 07:17:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-07 02:12:39.264196
- Title: Speaker Recognition in the Wild
- Title(参考訳): 野生における話者認識
- Authors: Neeraj Chhimwal, Anirudh Gupta, Rishabh Gaur, Harveen Singh Chadha,
Priyanshi Shah, Ankur Dhuriya, Vivek Raghavan
- Abstract要約: 本稿では,現在同定されている各話者の話者数と音声量を求めるパイプラインを提案する。
我々は、この手法を、Indic言語における音声認識のためのデータ準備パイプラインの一部として使用します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a pipeline to find the number of speakers, as well
as audios belonging to each of these now identified speakers in a source of
audio data where number of speakers or speaker labels are not known a priori.
We used this approach as a part of our Data Preparation pipeline for Speech
Recognition in Indic Languages
(https://github.com/Open-Speech-EkStep/vakyansh-wav2vec2-experimentation). To
understand and evaluate the accuracy of our proposed pipeline, we introduce two
metrics: Cluster Purity, and Cluster Uniqueness. Cluster Purity quantifies how
"pure" a cluster is. Cluster Uniqueness, on the other hand, quantifies what
percentage of clusters belong only to a single dominant speaker. We discuss
more on these metrics in section \ref{sec:metrics}. Since we develop this
utility to aid us in identifying data based on speaker IDs before training an
Automatic Speech Recognition (ASR) model, and since most of this data takes
considerable effort to scrape, we also conclude that 98\% of data gets mapped
to the top 80\% of clusters (computed by removing any clusters with less than a
fixed number of utterances -- we do this to get rid of some very small clusters
and use this threshold as 30), in the test set chosen.
- Abstract(参考訳): 本稿では,現在特定されている各話者の話者数と,先行する話者数や話者ラベルが不明な音声データのソースである話者数を求めるパイプラインを提案する。
Indic Languages (https://github.com/Open-Speech-EkStep/vakyansh-wav2vec2-experimentation) における音声認識のためのデータ準備パイプラインの一部としてこのアプローチを使用した。
提案するパイプラインの正確性を理解し,評価するために,クラスタ純度とクラスタ一意性という2つの指標を導入する。
クラスタの純度は、クラスタの“純度”を定量化する。
一方、クラスタ一意性は、クラスタのどの割合が単一の支配的な話者に属するかを測定する。
これらの指標について、セクション \ref{sec:metrics} でさらに議論する。
自動音声認識(asr)モデルをトレーニングする前に、話者idに基づくデータを特定するためのこのユーティリティを開発したので、このデータのほとんどはスクレイピングにかなりの労力がかかります。また、テストセットにおいて、98\%のデータが上位80\%にマッピングされる(一定数の発話数未満のクラスタを削除することで計算されます -- これは、非常に小さなクラスタを取り除き、このしきい値を30として使用するために行います)。
関連論文リスト
- Hypothesis Clustering and Merging: Novel MultiTalker Speech Recognition with Speaker Tokens [45.161909551392085]
本稿では,話者クラスタリングにより得られた話者クラストークンを付加した新しいアテンションベースのエンコーダデコーダ手法を提案する。
推論中、予測された話者クラスタトークンに条件付き複数の認識仮説を選択する。
これらの仮説は、正規化された編集距離に基づいて集約的な階層的クラスタリングによってマージされる。
論文 参考訳(メタデータ) (2024-09-24T04:31:46Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Bi-LSTM Scoring Based Similarity Measurement with Agglomerative
Hierarchical Clustering (AHC) for Speaker Diarization [0.0]
2つの話者間の典型的な会話は、声が重なり合う部分からなり、互いに中断したり、複数の文間での会話を止めたりする。
ダイアリゼーション技術の最近の進歩は、話者ダイアリゼーションシステムを即興化するニューラルネットワークベースのアプローチを活用している。
類似度行列に存在する要素を推定するための双方向長短期記憶ネットワークを提案する。
論文 参考訳(メタデータ) (2022-05-19T17:20:51Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z) - U-vectors: Generating clusterable speaker embedding from unlabeled data [0.0]
本稿では,未ラベルデータを扱う話者認識戦略を提案する。
小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。
提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-02-07T18:00:09Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。