論文の概要: Referee: Towards reference-free cross-speaker style transfer with
low-quality data for expressive speech synthesis
- arxiv url: http://arxiv.org/abs/2109.03439v1
- Date: Wed, 8 Sep 2021 05:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 02:14:21.435774
- Title: Referee: Towards reference-free cross-speaker style transfer with
low-quality data for expressive speech synthesis
- Title(参考訳): 参照:低品質データを用いた参照なしクロススピーカー方式の表現音声合成
- Authors: Songxiang Liu, Shan Yang, Dan Su, Dong Yu
- Abstract要約: テキスト・トゥ・スピーチ (TTS) におけるクロス・スピーカー・スタイル・トランスファー (CSST) は、ターゲット話者の音声における合成音声への発話スタイルの転送を目的としている。
これは、低品質データをフル活用してテキストから話し方を学ぶ、表現型TSのための堅牢な参照不要なCSSTアプローチであるRefereeを提示する。
- 参考スコア(独自算出の注目度): 39.730034713382736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-speaker style transfer (CSST) in text-to-speech (TTS) synthesis aims at
transferring a speaking style to the synthesised speech in a target speaker's
voice. Most previous CSST approaches rely on expensive high-quality data
carrying desired speaking style during training and require a reference
utterance to obtain speaking style descriptors as conditioning on the
generation of a new sentence. This work presents Referee, a robust
reference-free CSST approach for expressive TTS, which fully leverages
low-quality data to learn speaking styles from text. Referee is built by
cascading a text-to-style (T2S) model with a style-to-wave (S2W) model.
Phonetic PosteriorGram (PPG), phoneme-level pitch and energy contours are
adopted as fine-grained speaking style descriptors, which are predicted from
text using the T2S model. A novel pretrain-refinement method is adopted to
learn a robust T2S model by only using readily accessible low-quality data. The
S2W model is trained with high-quality target data, which is adopted to
effectively aggregate style descriptors and generate high-fidelity speech in
the target speaker's voice. Experimental results are presented, showing that
Referee outperforms a global-style-token (GST)-based baseline approach in CSST.
- Abstract(参考訳): テキスト音声合成(TTS)におけるクロススピーカースタイル転送(CSST)は、ターゲット話者の声における合成音声への発話スタイルの転送を目的としている。
従来のCSSTアプローチのほとんどは、トレーニング中に所望の話し方を持つ高価な高品質なデータに依存しており、新しい文の生成を条件に、話し方記述子を得るために基準発話を必要とする。
この研究は、低品質データをフル活用してテキストから話し方を学ぶ、表現型TSのための堅牢な参照なしCSSTアプローチであるRefereeを提示する。
Refereeはテキスト・ツー・スタイル(T2S)モデルをスタイル・ツー・ウェーブ(S2W)モデルでカスケードすることで構築される。
T2Sモデルを用いてテキストから予測し,音素レベルのピッチとエネルギーの輪郭を微細な話し方記述子として採用する。
アクセスしやすい低品質データのみを用いて、ロバストなT2Sモデルを学習するために、新しいプレトレイン・リファインメント法を採用する。
s2wモデルは、高品質なターゲットデータを用いて訓練され、効果的にスタイル記述子を集約し、ターゲット話者の声に忠実な音声を生成する。
実験の結果、RefereeはCSSTにおけるGST(Global-style-token)ベースのベースラインアプローチよりも優れていることが示された。
関連論文リスト
- LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning [12.069474749489897]
我々は、LibriTTS-Rに基づく新しいコーパスであるLibriTTS-Pを紹介し、発話スタイルの発話レベル記述(即ち、プロンプト)と話者特性の話者レベルプロンプトを含む。
スタイルキャプションタスクの結果から, LibriTTS-P を用いたモデルは, 従来のデータセットを用いたモデルよりも2.5倍正確な単語を生成することがわかった。
論文 参考訳(メタデータ) (2024-06-12T07:49:21Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion
and Adversarial Training with Large Speech Language Models [19.029030168939354]
StyleTTS 2は、大きな音声言語モデル(SLM)によるスタイル拡散と対角訓練を活用して、人間レベルのTS合成を実現するテキスト音声合成(TTS)モデルである。
StyleTTS 2は、単一話者のLJSpeechデータセット上の人間の記録を上回り、ネイティブ英語話者によって判断されるマルチ話者のVCTKデータセットにマッチする。
この研究は、単一話者と複数話者のデータセット上で初めての人間レベルのTSを実現し、大きなSLMを用いたスタイル拡散と対角訓練の可能性を示した。
論文 参考訳(メタデータ) (2023-06-13T11:04:43Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech
with Untranscribed Data [25.709370310448328]
非転写データを用いた高品質適応型TSのための拡散モデルである Guided-TTS 2 を提案する。
我々は,大規模無転写データセット上で話者条件拡散モデルを訓練し,分類器フリーガイダンス法を提案する。
Guided-TTS 2は、音声品質と話者類似性の観点から、高品質な単一話者TTSベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-05-30T18:30:20Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。