論文の概要: NIST SRE CTS Superset: A large-scale dataset for telephony speaker
recognition
- arxiv url: http://arxiv.org/abs/2108.07118v1
- Date: Mon, 16 Aug 2021 14:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 18:13:17.398433
- Title: NIST SRE CTS Superset: A large-scale dataset for telephony speaker
recognition
- Title(参考訳): NIST SRE CTS Superset:電話話者認識のための大規模データセット
- Authors: Seyed Omid Sadjadi
- Abstract要約: 本論文は,国立標準技術研究所(NIST)話者認識評価(SRE)会話電話音声(CTS)スーパーセットの概要を述べる。
CTS Supersetは、研究コミュニティに大規模なデータセットを提供することを目的として開発された。
6800人以上の話者の電話音声セグメントが多数含まれており、[10s, 60s]の範囲で一様に分散している。
- 参考スコア(独自算出の注目度): 2.5403247066589074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This document provides a brief description of the National Institute of
Standards and Technology (NIST) speaker recognition evaluation (SRE)
conversational telephone speech (CTS) Superset. The CTS Superset has been
created in an attempt to provide the research community with a large-scale
dataset along with uniform metadata that can be used to effectively train and
develop telephony (narrowband) speaker recognition systems. It contains a large
number of telephony speech segments from more than 6800 speakers with speech
durations distributed uniformly in the [10s, 60s] range. The segments have been
extracted from the source corpora used to compile prior SRE datasets
(SRE1996-2012), including the Greybeard corpus as well as the Switchboard and
Mixer series collected by the Linguistic Data Consortium (LDC). In addition to
the brief description, we also report speaker recognition results on the NIST
2020 CTS Speaker Recognition Challenge, obtained using a system trained with
the CTS Superset. The results will serve as a reference baseline for the
challenge.
- Abstract(参考訳): この文書は、national institute of standards and technology (nist) speaker recognition evaluation (sre) conversational telephone speech (cts) supersetの簡単な説明を提供する。
CTSスーパーセットは、研究コミュニティに大規模なデータセットと、テレフォニー(狭帯域)話者認識システムを効果的に訓練・開発するために使用できる均一なメタデータを提供することを目的として作られた。
音声の持続時間は[10, 60s]の範囲で均一に分布する6800人以上の話者からの電話音声セグメントが多数含まれている。
セグメントは、GreybeardコーパスやLinguistic Data Consortium (LDC)が収集したSwitchboard and Mixerシリーズを含む以前のSREデータセット(SRE1996-2012)のコンパイルに使用されたソースコーパスから抽出された。
簡単な説明に加えて,ctsスーパーセットで学習したシステムを用いて得られたnist 2020 cts話者認識課題における話者認識結果についても報告する。
結果は、チャレンジの基準ベースラインとして機能する。
関連論文リスト
- Language Modelling for Speaker Diarization in Telephonic Interviews [13.851959980488529]
音響的特徴と言語的内容の組み合わせは、単語レベルのDERで84.29%改善している。
本研究は,一部の話者認識タスクにおいて,言語内容が効率的に利用できることを確認した。
論文 参考訳(メタデータ) (2025-01-28T18:18:04Z) - Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC [73.23245793460275]
マルチトーカー音声認識は、重複する音声を遠ざけ、書き起こす際、独特な課題に直面している。
本稿では,MTASRにSOT(Serialized Output Training)を取り入れた場合の話者の絡み合いにおける接続性時間分類(CTC)の役割について検討する。
本研究では,ベイズリスクCTCフレームワークに基づく話者認識型CTC(SACTC)学習目標を提案する。
論文 参考訳(メタデータ) (2024-09-19T01:26:33Z) - kNN Retrieval for Simple and Effective Zero-Shot Multi-speaker Text-to-Speech [18.701864254184308]
kNN-TTSは、ゼロショットマルチ話者テキスト音声合成のためのシンプルで効果的なフレームワークである。
我々のモデルは、1つの話者から書き起こされた音声に基づいて訓練され、最先端のモデルに匹敵する性能を達成する。
また、微細な音声モーフィングを可能にするパラメータも導入する。
論文 参考訳(メタデータ) (2024-08-20T12:09:58Z) - Application of ASV for Voice Identification after VC and Duration Predictor Improvement in TTS Models [0.0]
本稿では,自動話者検証システムを提案する。
本モデルの主な目的は,対象話者の音声から埋め込みを抽出することである。
この情報は、現在開発中のマルチボイスTSパイプラインで使用されます。
論文 参考訳(メタデータ) (2024-06-27T15:08:51Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Synth2Aug: Cross-domain speaker recognition with TTS synthesized speech [8.465993273653554]
話者認識を支援するために,多話者テキスト音声合成システムを用いて音声合成を行う。
我々は、TTS合成音声がクロスドメイン話者認識性能を向上させることをデータセット上で観察する。
また,TTS合成に使用するテキストの異なるタイプの有効性についても検討する。
論文 参考訳(メタデータ) (2020-11-24T00:48:54Z) - Learning Speaker Embedding from Text-to-Speech [59.80309164404974]
我々は,エンドツーエンドのTacotron 2 TTSと話者埋め込みネットワークを,自己指導型で共同で訓練した。
本研究は,手書き文字とASR書き起こし文字のトレーニングについて検討した。
教師なしTS埋め込みは、LibriTTSデータセットのi-vectorに関して、EERを2.06%改善した。
論文 参考訳(メタデータ) (2020-10-21T18:03:16Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。