論文の概要: AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style
- arxiv url: http://arxiv.org/abs/2107.02530v1
- Date: Tue, 6 Jul 2021 10:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 21:29:44.877548
- Title: AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style
- Title(参考訳): AdaSpeech 3:自発スタイルの音声への適応テキスト
- Authors: Yuzi Yan, Xu Tan, Bohan Li, Guangyan Zhang, Tao Qin, Sheng Zhao, Yuan
Shen, Wei-Qiang Zhang, Tie-Yan Liu
- Abstract要約: AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
- 参考スコア(独自算出の注目度): 111.89762723159677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent text to speech (TTS) models perform very well in synthesizing
reading-style (e.g., audiobook) speech, it is still challenging to synthesize
spontaneous-style speech (e.g., podcast or conversation), mainly because of two
reasons: 1) the lack of training data for spontaneous speech; 2) the difficulty
in modeling the filled pauses (um and uh) and diverse rhythms in spontaneous
speech. In this paper, we develop AdaSpeech 3, an adaptive TTS system that
fine-tunes a well-trained reading-style TTS model for spontaneous-style speech.
Specifically, 1) to insert filled pauses (FP) in the text sequence
appropriately, we introduce an FP predictor to the TTS model; 2) to model the
varying rhythms, we introduce a duration predictor based on mixture of experts
(MoE), which contains three experts responsible for the generation of fast,
medium and slow speech respectively, and fine-tune it as well as the pitch
predictor for rhythm adaptation; 3) to adapt to other speaker timbre, we
fine-tune some parameters in the decoder with few speech data. To address the
challenge of lack of training data, we mine a spontaneous speech dataset to
support our research this work and facilitate future research on spontaneous
TTS. Experiments show that AdaSpeech 3 synthesizes speech with natural FP and
rhythms in spontaneous styles, and achieves much better MOS and SMOS scores
than previous adaptive TTS systems.
- Abstract(参考訳): 最近のテキスト・ツー・スピーチ(tts)モデルは、読み方(例えば、オーディオブック)の音声合成において非常によく機能するが、主に2つの理由から、自発的な音声(例えば、ポッドキャストや会話)を合成することは依然として困難である。
本稿では,自発的音声の読み上げ型ttsモデルを微調整した適応型ttsシステムadaspeech 3を開発した。
Specifically, 1) to insert filled pauses (FP) in the text sequence appropriately, we introduce an FP predictor to the TTS model; 2) to model the varying rhythms, we introduce a duration predictor based on mixture of experts (MoE), which contains three experts responsible for the generation of fast, medium and slow speech respectively, and fine-tune it as well as the pitch predictor for rhythm adaptation; 3) to adapt to other speaker timbre, we fine-tune some parameters in the decoder with few speech data.
学習データ不足の課題に対処するため,本研究を支援するために,自発音声データセットをマイニングし,将来的なTTS研究を促進する。
実験により、AdaSpeech 3は自然なFPとリズムを自然のスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSのスコアを得ることが示された。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models [127.47252277138708]
ゼロショット方式で自然な音声を生成するために,分解拡散モデルを備えたTSSシステムであるNaturalSpeech 3を提案する。
具体的には、分解ベクトル量子化(FVQ)を用いて、音声波形をコンテンツ、韻律、音色、音響的詳細の部分空間に分解する。
実験により、NaturalSpeech 3は、品質、類似性、韻律、知性において最先端のTSSシステムより優れていることが示された。
論文 参考訳(メタデータ) (2024-03-05T16:35:25Z) - PauseSpeech: Natural Speech Synthesis via Pre-trained Language Model and
Pause-based Prosody Modeling [25.966328901566815]
本稿では,事前学習した言語モデルとポーズに基づく韻律モデルを用いた音声合成システムPuaseSpeechを提案する。
実験の結果,PauseSpeechは自然性において過去のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-13T01:36:55Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - ComedicSpeech: Text To Speech For Stand-up Comedies in Low-Resource
Scenarios [5.06044403956839]
低リソースシナリオにおけるスタンドアップコメディ合成に適したTSシステムであるComeddicSpeechを開発した。
我々はプロソディエンコーダによる韻律表現を抽出し、それを柔軟な方法でTSモデルに条件付けする。
ComedicSpeechは,各コメディアンに対して10分間のトレーニングデータのみを用いて,ベースラインよりも表現性がよいことを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-20T14:24:45Z) - Duration-aware pause insertion using pre-trained language model for
multi-speaker text-to-speech [40.65850332919397]
事前訓練された言語モデルに基づいて,より強力な停止挿入フレームワークを提案する。
提案手法では,大規模テキストコーパス上で事前学習した変換器(BERT)の双方向エンコーダ表現を用いる。
また、より自然なマルチスピーカTSに対して、持続時間対応の停止挿入を利用する。
論文 参考訳(メタデータ) (2023-02-27T10:40:41Z) - Prosody-controllable spontaneous TTS with neural HMMs [11.472325158964646]
小型で不規則なデータセットから素早く学習できるTSアーキテクチャを提案する。
我々は既存のニューラルHMMベースのTSシステムに発話レベルの韻律制御を加える。
本研究では,2種類の難聴音声を合成するシステムの性能を評価する。
論文 参考訳(メタデータ) (2022-11-24T11:06:11Z) - StyleTTS: A Style-Based Generative Model for Natural and Diverse
Text-to-Speech Synthesis [23.17929822987861]
StyleTTSは並列TTSのためのスタイルベース生成モデルであり、参照音声発話から自然な韻律で多様な音声を合成することができる。
提案手法は, 単一話者と複数話者のデータセットにおいて, 最先端のモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2022-05-30T21:34:40Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。