論文の概要: NIST SRE CTS Superset: A large-scale dataset for telephony speaker
recognition
- arxiv url: http://arxiv.org/abs/2108.07118v1
- Date: Mon, 16 Aug 2021 14:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 18:13:17.398433
- Title: NIST SRE CTS Superset: A large-scale dataset for telephony speaker
recognition
- Title(参考訳): NIST SRE CTS Superset:電話話者認識のための大規模データセット
- Authors: Seyed Omid Sadjadi
- Abstract要約: 本論文は,国立標準技術研究所(NIST)話者認識評価(SRE)会話電話音声(CTS)スーパーセットの概要を述べる。
CTS Supersetは、研究コミュニティに大規模なデータセットを提供することを目的として開発された。
6800人以上の話者の電話音声セグメントが多数含まれており、[10s, 60s]の範囲で一様に分散している。
- 参考スコア(独自算出の注目度): 2.5403247066589074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This document provides a brief description of the National Institute of
Standards and Technology (NIST) speaker recognition evaluation (SRE)
conversational telephone speech (CTS) Superset. The CTS Superset has been
created in an attempt to provide the research community with a large-scale
dataset along with uniform metadata that can be used to effectively train and
develop telephony (narrowband) speaker recognition systems. It contains a large
number of telephony speech segments from more than 6800 speakers with speech
durations distributed uniformly in the [10s, 60s] range. The segments have been
extracted from the source corpora used to compile prior SRE datasets
(SRE1996-2012), including the Greybeard corpus as well as the Switchboard and
Mixer series collected by the Linguistic Data Consortium (LDC). In addition to
the brief description, we also report speaker recognition results on the NIST
2020 CTS Speaker Recognition Challenge, obtained using a system trained with
the CTS Superset. The results will serve as a reference baseline for the
challenge.
- Abstract(参考訳): この文書は、national institute of standards and technology (nist) speaker recognition evaluation (sre) conversational telephone speech (cts) supersetの簡単な説明を提供する。
CTSスーパーセットは、研究コミュニティに大規模なデータセットと、テレフォニー(狭帯域)話者認識システムを効果的に訓練・開発するために使用できる均一なメタデータを提供することを目的として作られた。
音声の持続時間は[10, 60s]の範囲で均一に分布する6800人以上の話者からの電話音声セグメントが多数含まれている。
セグメントは、GreybeardコーパスやLinguistic Data Consortium (LDC)が収集したSwitchboard and Mixerシリーズを含む以前のSREデータセット(SRE1996-2012)のコンパイルに使用されたソースコーパスから抽出された。
簡単な説明に加えて,ctsスーパーセットで学習したシステムを用いて得られたnist 2020 cts話者認識課題における話者認識結果についても報告する。
結果は、チャレンジの基準ベースラインとして機能する。
関連論文リスト
- Application of ASV for Voice Identification after VC and Duration Predictor Improvement in TTS Models [0.0]
本稿では,自動話者検証システムを提案する。
本モデルの主な目的は,対象話者の音声から埋め込みを抽出することである。
この情報は、現在開発中のマルチボイスTSパイプラインで使用されます。
論文 参考訳(メタデータ) (2024-06-27T15:08:51Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - The NIST CTS Speaker Recognition Challenge [1.5282767384702267]
アメリカ国立標準技術研究所(NIST)は2020年8月からCTSチャレンジの第2回を実施中である。
本稿では,CTSチャレンジにおけるシステム性能の評価と解析について概説する。
論文 参考訳(メタデータ) (2022-04-21T16:06:27Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Synth2Aug: Cross-domain speaker recognition with TTS synthesized speech [8.465993273653554]
話者認識を支援するために,多話者テキスト音声合成システムを用いて音声合成を行う。
我々は、TTS合成音声がクロスドメイン話者認識性能を向上させることをデータセット上で観察する。
また,TTS合成に使用するテキストの異なるタイプの有効性についても検討する。
論文 参考訳(メタデータ) (2020-11-24T00:48:54Z) - Learning Speaker Embedding from Text-to-Speech [59.80309164404974]
我々は,エンドツーエンドのTacotron 2 TTSと話者埋め込みネットワークを,自己指導型で共同で訓練した。
本研究は,手書き文字とASR書き起こし文字のトレーニングについて検討した。
教師なしTS埋め込みは、LibriTTSデータセットのi-vectorに関して、EERを2.06%改善した。
論文 参考訳(メタデータ) (2020-10-21T18:03:16Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Cotatron: Transcription-Guided Speech Encoder for Any-to-Many Voice
Conversion without Parallel Data [5.249587285519702]
コタトロン (Cotatron) は、話者に依存しない言語表現のための書き起こし誘導音声エンコーダである。
従来の手法とよく似たコタトロン特徴を用いて音声を再構成する音声変換システムを訓練する。
また,学習中に見つからない話者からの音声を変換し,ASRを用いて音声の書き起こしを最小限に抑えることができる。
論文 参考訳(メタデータ) (2020-05-07T07:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。