論文の概要: Learning Speaker Embedding from Text-to-Speech
- arxiv url: http://arxiv.org/abs/2010.11221v1
- Date: Wed, 21 Oct 2020 18:03:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 01:20:09.157367
- Title: Learning Speaker Embedding from Text-to-Speech
- Title(参考訳): テキストから音声への埋め込み学習
- Authors: Jaejin Cho, Piotr Zelasko, Jesus Villalba, Shinji Watanabe, Najim
Dehak
- Abstract要約: 我々は,エンドツーエンドのTacotron 2 TTSと話者埋め込みネットワークを,自己指導型で共同で訓練した。
本研究は,手書き文字とASR書き起こし文字のトレーニングについて検討した。
教師なしTS埋め込みは、LibriTTSデータセットのi-vectorに関して、EERを2.06%改善した。
- 参考スコア(独自算出の注目度): 59.80309164404974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot multi-speaker Text-to-Speech (TTS) generates target speaker voices
given an input text and the corresponding speaker embedding. In this work, we
investigate the effectiveness of the TTS reconstruction objective to improve
representation learning for speaker verification. We jointly trained end-to-end
Tacotron 2 TTS and speaker embedding networks in a self-supervised fashion. We
hypothesize that the embeddings will contain minimal phonetic information since
the TTS decoder will obtain that information from the textual input. TTS
reconstruction can also be combined with speaker classification to enhance
these embeddings further. Once trained, the speaker encoder computes
representations for the speaker verification task, while the rest of the TTS
blocks are discarded. We investigated training TTS from either manual or
ASR-generated transcripts. The latter allows us to train embeddings on datasets
without manual transcripts. We compared ASR transcripts and Kaldi phone
alignments as TTS inputs, showing that the latter performed better due to their
finer resolution. Unsupervised TTS embeddings improved EER by 2.06\% absolute
with regard to i-vectors for the LibriTTS dataset. TTS with speaker
classification loss improved EER by 0.28\% and 0.73\% absolutely from a model
using only speaker classification loss in LibriTTS and Voxceleb1 respectively.
- Abstract(参考訳): Zero-shot Multi-Speaker Text-to-Speech (TTS) は入力テキストと対応する話者埋め込みが与えられたターゲット話者音声を生成する。
本研究では,話者検証のための表現学習を改善するため,TTS再構成目標の有効性について検討する。
我々は,エンドツーエンドのTacotron 2 TTSと話者埋め込みネットワークを自己指導型で共同で訓練した。
ttsデコーダがテキスト入力からその情報を取得するため、埋め込みには最小の音声情報が含まれると仮定する。
TTS再構成は話者分類と組み合わせることで、これらの埋め込みをさらに強化することができる。
一度訓練すると、スピーカーエンコーダは話者検証タスクの表現を計算し、残りのttsブロックは破棄される。
マニュアルまたはasr生成転写物からのttの訓練について検討した。
後者では、手動の書き起こしなしでデータセットへの埋め込みをトレーニングできます。
ASR文字とKaldi電話のアライメントをTS入力として比較したところ,分解能が向上した。
教師なしTS埋め込みは、LibriTTSデータセットのi-vectorに関して、EERを2.06\%絶対的に改善した。
LibriTTSとVoxceleb1の話者分類損失のみを用いたモデルから、話者分類損失のTSSはEERを0.28\%、絶対0.73\%改善した。
関連論文リスト
- Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis [30.97784092953007]
本稿では、アクセント付き音声認識を改善するためのデータ拡張手法として、教師なし音声合成(TTS)の使用について検討する。
TTSシステムは、手書き文字起こしではなく、少量のアクセント付き音声訓練データとそれらの擬似ラベルで訓練される。
この手法により,アクセント付き音声認識のためのデータ拡張を行うために,手書きの書き起こしを伴わないアクセント付き音声データを使用することが可能である。
論文 参考訳(メタデータ) (2024-07-04T16:42:24Z) - DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech [30.110058338155675]
話者の音色を正確に保持することが難しいため,言語間テキスト合成 (CTTS) はまだ満足できない。
そこで本研究では,CTTS のための新しい2元話者埋め込み TTS (DSE-TTS) フレームワークを提案する。
両方の埋め込みを組み合わせることで、DSE-TTSは言語間合成において最先端のSANE-TTSよりも著しく優れる。
論文 参考訳(メタデータ) (2023-06-25T06:46:36Z) - UnifySpeech: A Unified Framework for Zero-shot Text-to-Speech and Voice
Conversion [63.346825713704625]
テキスト音声変換(TTS, Text-to-Speech)と音声変換(VC)は2つの異なるタスクであり, 音質の異なる音質で音声を合成することを目的としている。
本稿では,TSとVCを統合フレームワークに初めて導入するUnifySpeechを提案する。
論文 参考訳(メタデータ) (2023-01-10T06:06:57Z) - Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech
with Untranscribed Data [25.709370310448328]
非転写データを用いた高品質適応型TSのための拡散モデルである Guided-TTS 2 を提案する。
我々は,大規模無転写データセット上で話者条件拡散モデルを訓練し,分類器フリーガイダンス法を提案する。
Guided-TTS 2は、音声品質と話者類似性の観点から、高品質な単一話者TTSベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-05-30T18:30:20Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。