論文の概要: Unsupervised word-level prosody tagging for controllable speech
synthesis
- arxiv url: http://arxiv.org/abs/2202.07200v2
- Date: Wed, 16 Feb 2022 05:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 12:37:28.304732
- Title: Unsupervised word-level prosody tagging for controllable speech
synthesis
- Title(参考訳): 制御可能な音声合成のための教師なし単語レベルの韻律タグ付け
- Authors: Yiwei Guo, Chenpeng Du, Kai Yu
- Abstract要約: 教師なし単語レベルの韻律タグ付けを2段階に分けた新しい手法を提案する。
まず、各単語を音声内容に応じて決定木で分類し、その後、GMMを用いて韻律をクラスタ化する。
単語レベルの韻律タグを抽出したTSシステムは、制御可能な音声合成のために訓練される。
- 参考スコア(独自算出の注目度): 19.508501785186755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although word-level prosody modeling in neural text-to-speech (TTS) has been
investigated in recent research for diverse speech synthesis, it is still
challenging to control speech synthesis manually without a specific reference.
This is largely due to lack of word-level prosody tags. In this work, we
propose a novel approach for unsupervised word-level prosody tagging with two
stages, where we first group the words into different types with a decision
tree according to their phonetic content and then cluster the prosodies using
GMM within each type of words separately. This design is based on the
assumption that the prosodies of different type of words, such as long or short
words, should be tagged with different label sets. Furthermore, a TTS system
with the derived word-level prosody tags is trained for controllable speech
synthesis. Experiments on LJSpeech show that the TTS model trained with
word-level prosody tags not only achieves better naturalness than a typical
FastSpeech2 model, but also gains the ability to manipulate word-level prosody.
- Abstract(参考訳): ニューラルテキスト音声合成(TTS)における単語レベルの韻律モデリングは,近年,多様な音声合成において研究されているが,特定の参照なしに手動で音声合成を制御することは依然として困難である。
これは主に単語レベルの韻律タグがないためである。
本稿では,2つの段階からなる教師なし単語レベルの韻律タグ作成のための新しいアプローチを提案する。まず,単語を音声内容に応じた決定木で異なる型に分類し,その後,各単語の型にgmmを用いて韻律を分類する。
この設計は、長い単語や短い単語など、異なる種類の単語の韻律を異なるラベルセットでタグ付けするべきであるという仮定に基づいている。
さらに、単語レベルの韻律タグを抽出したTSシステムは、制御可能な音声合成のために訓練される。
ljspeechの実験によれば、単語レベルの韻律タグで訓練されたttsモデルは、通常のfastspeech2モデルよりも自然性が向上するだけでなく、単語レベルの韻律を操作する能力も得る。
関連論文リスト
- A Preliminary Analysis of Automatic Word and Syllable Prominence Detection in Non-Native Speech With Text-to-Speech Prosody Embeddings [9.764748000637082]
単語と音節レベルでの発音の自動検出は,コンピュータ支援型言語学習システムの構築に不可欠である。
音声合成音声における音節・音節レベルの優位性は,現在最先端の音声合成システム(SOTA)が学習している韻律埋め込みによってもたらされることが示されている。
論文 参考訳(メタデータ) (2024-12-11T10:58:14Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - RWEN-TTS: Relation-aware Word Encoding Network for Natural
Text-to-Speech Synthesis [3.591224588041813]
膨大な数のTTSモデルが人間のような音声を生成する。
リレーショナル・アウェア・ワード・ネットワーク(RWEN)は,2つのモジュールをベースとした統語的・意味的情報を実現する。
実験結果から, 前作に比べて大幅な改善が見られた。
論文 参考訳(メタデータ) (2022-12-15T16:17:03Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Word-Level Style Control for Expressive, Non-attentive Speech Synthesis [1.8262960053058506]
2つのエンコーダの助けを借りて、音声データの単語レベルのスタイリスティックな表現と韻律的な表現を学習しようとする。
結果として得られたモデルにより,韻律伝達能力だけでなく,単語レベルとグローバルな制御が可能であることがわかった。
論文 参考訳(メタデータ) (2021-11-19T12:03:53Z) - Unsupervised Abstractive Dialogue Summarization for Tete-a-Tetes [49.901984490961624]
テテ-ア-テト(SuTaT)のための非教師なし抽象的対話要約モデルを提案する。
SuTaTは条件付き生成モジュールと2つの教師なし要約モジュールからなる。
実験の結果,SuTaTは自動評価と人的評価の両方において教師なし対話要約よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-15T03:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。