論文の概要: Phoneme-Level BERT for Enhanced Prosody of Text-to-Speech with Grapheme
Predictions
- arxiv url: http://arxiv.org/abs/2301.08810v1
- Date: Fri, 20 Jan 2023 21:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 16:27:02.391995
- Title: Phoneme-Level BERT for Enhanced Prosody of Text-to-Speech with Grapheme
Predictions
- Title(参考訳): 音素レベルBERTによる音韻予測付きテキスト音声の韻律向上
- Authors: Yinghao Aaron Li, Cong Han, Xilin Jiang, Nima Mesgarani
- Abstract要約: そこで本研究では,正規なマスク付き音素予測とともに,対応する音素を予測するためのプレテキストタスクを備えた音素レベルBERT(PL-BERT)を提案する。
主観評価の結果,音素レベルBERTエンコーダは,合成音声の自然な評価値の平均スコア(MOS)を大幅に改善した。
- 参考スコア(独自算出の注目度): 20.03948836281806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained language models have been shown to be helpful in
improving the naturalness of text-to-speech (TTS) models by enabling them to
produce more naturalistic prosodic patterns. However, these models are usually
word-level or sup-phoneme-level and jointly trained with phonemes, making them
inefficient for the downstream TTS task where only phonemes are needed. In this
work, we propose a phoneme-level BERT (PL-BERT) with a pretext task of
predicting the corresponding graphemes along with the regular masked phoneme
predictions. Subjective evaluations show that our phoneme-level BERT encoder
has significantly improved the mean opinion scores (MOS) of rated naturalness
of synthesized speech compared with the state-of-the-art (SOTA) StyleTTS
baseline on out-of-distribution (OOD) texts.
- Abstract(参考訳): 大規模事前学習言語モデルは、より自然主義的な韻律パターンを生成できるようにすることで、テキスト音声(TTS)モデルの自然性を改善するのに役立つことが示されている。
しかし、これらのモデルは通常、単語レベルまたは超音素レベルであり、音素と共同で訓練されるため、音素のみを必要とする下流のttsタスクでは非効率である。
本研究では,正規マスク付き音素予測とともに対応する音素を予測するためのプレテキストタスクを備えた音素レベルBERT(PL-BERT)を提案する。
主観的評価では,音素レベルのbertエンコーダは,od(out-of-distribution)テキストをベースとするsof-the-art (sota) stylettsと比較して,合成音声の自然性評価の平均評価スコア(mos)を有意に改善した。
関連論文リスト
- From Babble to Words: Pre-Training Language Models on Continuous Streams of Phonemes [6.726629754291751]
テキストデータセットを連続的な音素ストリームに変換するパイプラインを開発した。
このパイプラインをBabyLMチャレンジから100万ワードの事前トレーニングデータセットに適用する。
この結果から,音素ベースの学習は従来の言語理解タスクの性能をわずかに低下させるが,分析的・実践的メリットは有益であることがわかった。
論文 参考訳(メタデータ) (2024-10-30T11:05:01Z) - Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT [29.167336994990542]
クロス・ディレクト・テキスト・トゥ・スペーチ(CD-TTS)は、非ネイティブ方言における学習された話者の声を合成するタスクである。
本稿では,3つのサブモジュールからなる新しいTSモデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:40:27Z) - Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文 参考訳(メタデータ) (2023-07-13T21:06:23Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Mixed-Phoneme BERT: Improving BERT with Mixed Phoneme and Sup-Phoneme
Representations for Text to Speech [104.65639892109381]
学習能力を高めるために,音素と音素の混合表現を用いたBERTモデルの新たな変種であるMixedPhoneme BERTを提案する。
実験の結果,提案したMixed-Phoneme BERTは,FastSpeech 2ベースラインと比較して0.30CMOSゲインでTTS性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2022-03-31T17:12:26Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - PnG BERT: Augmented BERT on Phonemes and Graphemes for Neural TTS [27.20479869682578]
PnG BERTはニューラルTSのための新しいエンコーダモデルである。
大規模テキストコーパス上で、自己管理的な方法で事前訓練することができる。
論文 参考訳(メタデータ) (2021-03-28T06:24:00Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。