論文の概要: Unsupervised word-level prosody tagging for controllable speech
synthesis
- arxiv url: http://arxiv.org/abs/2202.07200v1
- Date: Tue, 15 Feb 2022 05:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 14:26:32.432331
- Title: Unsupervised word-level prosody tagging for controllable speech
synthesis
- Title(参考訳): 制御可能な音声合成のための教師なし単語レベルの韻律タグ付け
- Authors: Yiwei Guo, Chenpeng Du, Kai Yu
- Abstract要約: 教師なし単語レベルの韻律タグ付けを2段階に分けた新しい手法を提案する。
まず、各単語を音声内容に応じて決定木で分類し、その後、GMMを用いて韻律をクラスタ化する。
単語レベルの韻律タグを抽出したTSシステムは、制御可能な音声合成のために訓練される。
- 参考スコア(独自算出の注目度): 19.508501785186755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although word-level prosody modeling in neural text-to-speech (TTS) has been
investigated in recent research for diverse speech synthesis, it is still
challenging to control speech synthesis manually without a specific reference.
This is largely due to lack of word-level prosody tags. In this work, we
propose a novel approach for unsupervised word-level prosody tagging with two
stages, where we first group the words into different types with a decision
tree according to their phonetic content and then cluster the prosodies using
GMM within each type of words separately. This design is based on the
assumption that the prosodies of different type of words, such as long or short
words, should be tagged with different label sets. Furthermore, a TTS system
with the derived word-level prosody tags is trained for controllable speech
synthesis. Experiments on LJSpeech show that the TTS model trained with
word-level prosody tags not only achieves better naturalness than a typical
FastSpeech2 model, but also gains the ability to manipulate word-level prosody.
- Abstract(参考訳): ニューラルテキスト音声合成(TTS)における単語レベルの韻律モデリングは,近年,多様な音声合成において研究されているが,特定の参照なしに手動で音声合成を制御することは依然として困難である。
これは主に単語レベルの韻律タグがないためである。
本稿では,2つの段階からなる教師なし単語レベルの韻律タグ作成のための新しいアプローチを提案する。まず,単語を音声内容に応じた決定木で異なる型に分類し,その後,各単語の型にgmmを用いて韻律を分類する。
この設計は、長い単語や短い単語など、異なる種類の単語の韻律を異なるラベルセットでタグ付けするべきであるという仮定に基づいている。
さらに、単語レベルの韻律タグを抽出したTSシステムは、制御可能な音声合成のために訓練される。
ljspeechの実験によれば、単語レベルの韻律タグで訓練されたttsモデルは、通常のfastspeech2モデルよりも自然性が向上するだけでなく、単語レベルの韻律を操作する能力も得る。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - From Characters to Words: Hierarchical Pre-trained Language Model for
Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。
トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。
階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文 参考訳(メタデータ) (2023-05-23T23:22:20Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - RWEN-TTS: Relation-aware Word Encoding Network for Natural
Text-to-Speech Synthesis [3.591224588041813]
膨大な数のTTSモデルが人間のような音声を生成する。
リレーショナル・アウェア・ワード・ネットワーク(RWEN)は,2つのモジュールをベースとした統語的・意味的情報を実現する。
実験結果から, 前作に比べて大幅な改善が見られた。
論文 参考訳(メタデータ) (2022-12-15T16:17:03Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Word-Level Style Control for Expressive, Non-attentive Speech Synthesis [1.8262960053058506]
2つのエンコーダの助けを借りて、音声データの単語レベルのスタイリスティックな表現と韻律的な表現を学習しようとする。
結果として得られたモデルにより,韻律伝達能力だけでなく,単語レベルとグローバルな制御が可能であることがわかった。
論文 参考訳(メタデータ) (2021-11-19T12:03:53Z) - Unsupervised Abstractive Dialogue Summarization for Tete-a-Tetes [49.901984490961624]
テテ-ア-テト(SuTaT)のための非教師なし抽象的対話要約モデルを提案する。
SuTaTは条件付き生成モジュールと2つの教師なし要約モジュールからなる。
実験の結果,SuTaTは自動評価と人的評価の両方において教師なし対話要約よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-15T03:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。