Fugu-MT 論文翻訳(概要): NIST SRE CTS Superset: A large-scale dataset for telephony speaker recognition

論文の概要: NIST SRE CTS Superset: A large-scale dataset for telephony speaker recognition

arxiv url: http://arxiv.org/abs/2108.07118v1
Date: Mon, 16 Aug 2021 14:39:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-17 18:13:17.398433
Title: NIST SRE CTS Superset: A large-scale dataset for telephony speaker recognition
Title（参考訳）: NIST SRE CTS Superset:電話話者認識のための大規模データセット
Authors: Seyed Omid Sadjadi
Abstract要約: 本論文は,国立標準技術研究所(NIST)話者認識評価(SRE)会話電話音声(CTS)スーパーセットの概要を述べる。 CTS Supersetは、研究コミュニティに大規模なデータセットを提供することを目的として開発された。 6800人以上の話者の電話音声セグメントが多数含まれており、[10s, 60s]の範囲で一様に分散している。
参考スコア（独自算出の注目度）: 2.5403247066589074
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This document provides a brief description of the National Institute of Standards and Technology (NIST) speaker recognition evaluation (SRE) conversational telephone speech (CTS) Superset. The CTS Superset has been created in an attempt to provide the research community with a large-scale dataset along with uniform metadata that can be used to effectively train and develop telephony (narrowband) speaker recognition systems. It contains a large number of telephony speech segments from more than 6800 speakers with speech durations distributed uniformly in the [10s, 60s] range. The segments have been extracted from the source corpora used to compile prior SRE datasets (SRE1996-2012), including the Greybeard corpus as well as the Switchboard and Mixer series collected by the Linguistic Data Consortium (LDC). In addition to the brief description, we also report speaker recognition results on the NIST 2020 CTS Speaker Recognition Challenge, obtained using a system trained with the CTS Superset. The results will serve as a reference baseline for the challenge.
Abstract（参考訳）: この文書は、national institute of standards and technology (nist) speaker recognition evaluation (sre) conversational telephone speech (cts) supersetの簡単な説明を提供する。 CTSスーパーセットは、研究コミュニティに大規模なデータセットと、テレフォニー(狭帯域)話者認識システムを効果的に訓練・開発するために使用できる均一なメタデータを提供することを目的として作られた。音声の持続時間は[10, 60s]の範囲で均一に分布する6800人以上の話者からの電話音声セグメントが多数含まれている。セグメントは、GreybeardコーパスやLinguistic Data Consortium (LDC)が収集したSwitchboard and Mixerシリーズを含む以前のSREデータセット(SRE1996-2012)のコンパイルに使用されたソースコーパスから抽出された。簡単な説明に加えて,ctsスーパーセットで学習したシステムを用いて得られたnist 2020 cts話者認識課題における話者認識結果についても報告する。結果は、チャレンジの基準ベースラインとして機能する。

関連論文リスト

Language Modelling for Speaker Diarization in Telephonic Interviews [13.851959980488529]
音響的特徴と言語的内容の組み合わせは、単語レベルのDERで84.29%改善している。本研究は,一部の話者認識タスクにおいて,言語内容が効率的に利用できることを確認した。
論文参考訳（メタデータ） (2025-01-28T18:18:04Z)
Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC [73.23245793460275]
マルチトーカー音声認識は、重複する音声を遠ざけ、書き起こす際、独特な課題に直面している。本稿では,MTASRにSOT(Serialized Output Training)を取り入れた場合の話者の絡み合いにおける接続性時間分類(CTC)の役割について検討する。本研究では,ベイズリスクCTCフレームワークに基づく話者認識型CTC(SACTC)学習目標を提案する。
論文参考訳（メタデータ） (2024-09-19T01:26:33Z)
kNN Retrieval for Simple and Effective Zero-Shot Multi-speaker Text-to-Speech [18.701864254184308]
kNN-TTSは、ゼロショットマルチ話者テキスト音声合成のためのシンプルで効果的なフレームワークである。我々のモデルは、1つの話者から書き起こされた音声に基づいて訓練され、最先端のモデルに匹敵する性能を達成する。また、微細な音声モーフィングを可能にするパラメータも導入する。
論文参考訳（メタデータ） (2024-08-20T12:09:58Z)
Application of ASV for Voice Identification after VC and Duration Predictor Improvement in TTS Models [0.0]
本稿では,自動話者検証システムを提案する。本モデルの主な目的は,対象話者の音声から埋め込みを抽出することである。この情報は、現在開発中のマルチボイスTSパイプラインで使用されます。
論文参考訳（メタデータ） (2024-06-27T15:08:51Z)
Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文参考訳（メタデータ） (2024-01-08T16:37:45Z)
DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文参考訳（メタデータ） (2023-09-14T19:33:27Z)
SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。 SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文参考訳（メタデータ） (2023-05-22T13:47:51Z)
The NIST CTS Speaker Recognition Challenge [1.5282767384702267]
アメリカ国立標準技術研究所(NIST)は2020年8月からCTSチャレンジの第2回を実施中である。本稿では,CTSチャレンジにおけるシステム性能の評価と解析について概説する。
論文参考訳（メタデータ） (2022-04-21T16:06:27Z)
End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文参考訳（メタデータ） (2021-05-05T14:55:29Z)
Synth2Aug: Cross-domain speaker recognition with TTS synthesized speech [8.465993273653554]
話者認識を支援するために,多話者テキスト音声合成システムを用いて音声合成を行う。我々は、TTS合成音声がクロスドメイン話者認識性能を向上させることをデータセット上で観察する。また,TTS合成に使用するテキストの異なるタイプの有効性についても検討する。
論文参考訳（メタデータ） (2020-11-24T00:48:54Z)
Learning Speaker Embedding from Text-to-Speech [59.80309164404974]
我々は,エンドツーエンドのTacotron 2 TTSと話者埋め込みネットワークを,自己指導型で共同で訓練した。本研究は,手書き文字とASR書き起こし文字のトレーニングについて検討した。教師なしTS埋め込みは、LibriTTSデータセットのi-vectorに関して、EERを2.06%改善した。
論文参考訳（メタデータ） (2020-10-21T18:03:16Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)
Cotatron: Transcription-Guided Speech Encoder for Any-to-Many Voice Conversion without Parallel Data [5.249587285519702]
コタトロン (Cotatron) は、話者に依存しない言語表現のための書き起こし誘導音声エンコーダである。従来の手法とよく似たコタトロン特徴を用いて音声を再構成する音声変換システムを訓練する。また,学習中に見つからない話者からの音声を変換し,ASRを用いて音声の書き起こしを最小限に抑えることができる。
論文参考訳（メタデータ） (2020-05-07T07:37:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。