論文の概要: Stable-TTS: Stable Speaker-Adaptive Text-to-Speech Synthesis via Prosody Prompting
- arxiv url: http://arxiv.org/abs/2412.20155v1
- Date: Sat, 28 Dec 2024 13:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:04:23.319298
- Title: Stable-TTS: Stable Speaker-Adaptive Text-to-Speech Synthesis via Prosody Prompting
- Title(参考訳): 安定なTTS:プロソディプロンプティングによる安定な話者適応型テキスト音声合成
- Authors: Wooseok Han, Minki Kang, Changhun Kim, Eunho Yang,
- Abstract要約: Stable-TTSは、高品質な事前トレーニングデータセットの小さなサブセットを活用する、話者適応型TSフレームワークである。
先行サンプルの高品質な韻律を活用しつつ、ターゲット話者の音色を効果的に捉え、韻律の整合性を実現する。
雑音の多いターゲット音声サンプルにおいて, 安定TTSの有効性を示す実験を行った。
- 参考スコア(独自算出の注目度): 34.49247268109534
- License:
- Abstract: Speaker-adaptive Text-to-Speech (TTS) synthesis has attracted considerable attention due to its broad range of applications, such as personalized voice assistant services. While several approaches have been proposed, they often exhibit high sensitivity to either the quantity or the quality of target speech samples. To address these limitations, we introduce Stable-TTS, a novel speaker-adaptive TTS framework that leverages a small subset of a high-quality pre-training dataset, referred to as prior samples. Specifically, Stable-TTS achieves prosody consistency by leveraging the high-quality prosody of prior samples, while effectively capturing the timbre of the target speaker. Additionally, it employs a prior-preservation loss during fine-tuning to maintain the synthesis ability for prior samples to prevent overfitting on target samples. Extensive experiments demonstrate the effectiveness of Stable-TTS even under limited amounts of and noisy target speech samples.
- Abstract(参考訳): 話者適応型テキスト音声合成(TTS)は、パーソナライズされた音声アシスタントサービスなど幅広い用途で注目されている。
いくつかのアプローチが提案されているが、ターゲット音声サンプルの量や品質に対して高い感度を示すことが多い。
これらの制限に対処するため、我々は、先行サンプルと呼ばれる高品質な事前学習データセットの小さなサブセットを活用する、新しい話者適応型TSフレームワークであるStable-TTSを紹介した。
具体的には、Stable-TTSは、先行サンプルの高品質な韻律を利用して、ターゲット話者の音色を効果的に捉えながら、韻律の整合性を達成する。
さらに、微調整中に事前保存損失を利用して、先行サンプルの合成能力を維持し、ターゲットサンプルへの過度な適合を防止する。
広汎な実験により,限定的かつ雑音の多いターゲット音声サンプルにおいても,安定したTTSの有効性が示された。
関連論文リスト
- Advancing Test-Time Adaptation in Wild Acoustic Test Settings [26.05732574338255]
音声信号は短期的な一貫性に従い、特別な適応戦略を必要とする。
本研究では,ASR微調整音響基礎モデルに適した新しい音響TTA法を提案する。
本手法は,様々な音環境下での既存のベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-10-14T06:22:08Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Test-Time Training for Speech [6.697702130929691]
標準音声分類タスクのテストデータセットに分布シフトを導入する。
テスト時間トレーニング(TTT)が分散シフトの調整にどのように役立つかを検討する。
論文 参考訳(メタデータ) (2023-09-19T21:06:22Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Cross-Utterance Conditioned VAE for Non-Autoregressive Text-to-Speech [27.84124625934247]
各音素に対する潜在韻律特徴の後方確率分布を推定するために,発話条件付きVAEを提案する。
CUC-VAEは、発話情報に基づいて、発話固有の事前分布からサンプリングすることができる。
LJ-Speech と LibriTTS のデータによる実験結果から,提案した CUC-VAE TTS システムは自然性や韻律の多様性を向上することが示された。
論文 参考訳(メタデータ) (2022-05-09T08:39:53Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising
Diffusion GANs [39.388599580262614]
DiffGAN-TTS(DiffGAN-TTS, DDPM-based text-to-speech)モデルを導入し, 高忠実度音声合成を実現する。
実験の結果,DiffGAN-TTSは1段階のみの高合成性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-01-28T07:41:10Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z) - BOFFIN TTS: Few-Shot Speaker Adaptation by Bayesian Optimization [15.698168668305001]
本稿では,少数話者適応のための新しいアプローチであるBOFFIN TTSを提案する。
BOFFIN TTSは10分以内の音声で新しい話者を合成できることを示す。
論文 参考訳(メタデータ) (2020-02-04T16:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。