論文の概要: Simple and Effective Multi-sentence TTS with Expressive and Coherent
Prosody
- arxiv url: http://arxiv.org/abs/2206.14643v1
- Date: Wed, 29 Jun 2022 13:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 20:26:37.912833
- Title: Simple and Effective Multi-sentence TTS with Expressive and Coherent
Prosody
- Title(参考訳): 表現的・コヒーレントな韻律を用いた簡易かつ効果的な多文TS
- Authors: Peter Makarov, Ammar Abbas, Mateusz {\L}ajszczak, Arnaud Joly, Sri
Karlapati, Alexis Moinet, Thomas Drugman, Penny Karanasou
- Abstract要約: 長いコンテキスト、強力なテキスト機能、マルチスピーカーデータのトレーニングはすべて韻律を改善します。
BERTのような強力な言語モデルからの微調整されたワードレベル機能は、より多くのトレーニングデータから利益を得ているように見える。
本システムでは,全ての競合相手に対して,音声の自然度を統計的に有意に向上させるなど,一貫した強靭な結果が得られる。
- 参考スコア(独自算出の注目度): 16.78219386612505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating expressive and contextually appropriate prosody remains a
challenge for modern text-to-speech (TTS) systems. This is particularly evident
for long, multi-sentence inputs. In this paper, we examine simple extensions to
a Transformer-based FastSpeech-like system, with the goal of improving prosody
for multi-sentence TTS. We find that long context, powerful text features, and
training on multi-speaker data all improve prosody. More interestingly, they
result in synergies. Long context disambiguates prosody, improves coherence,
and plays to the strengths of Transformers. Fine-tuning word-level features
from a powerful language model, such as BERT, appears to profit from more
training data, readily available in a multi-speaker setting. We look into
objective metrics on pausing and pacing and perform thorough subjective
evaluations for speech naturalness. Our main system, which incorporates all the
extensions, achieves consistently strong results, including statistically
significant improvements in speech naturalness over all its competitors.
- Abstract(参考訳): 表現的かつ文脈的に適切な韻律を生成することは、現代音声合成システム(TTS)の課題である。
これは長い多文入力に対して特に顕著である。
本稿では,マルチsentence ttsの韻律改善を目標とし,トランスフォーマーベースのfastspeechライクシステムの簡易拡張について検討する。
長いコンテキスト、強力なテキスト機能、マルチスピーカーデータのトレーニングはすべて韻律を改善している。
さらに興味深いことに、それらは相乗効果をもたらす。
ロングコンテクストはプロソディを曖昧にし、コヒーレンスを改善し、トランスフォーマーの強さに寄与する。
BERTのような強力な言語モデルからの微調整されたワードレベル機能は、より多くのトレーニングデータから利益を得ているように見える。
ペーシングとペーシングの客観的指標を検討し,音声自然性に対する主観評価を徹底的に行う。
全ての拡張を組み込んだ本システムは,すべての競合相手に対して統計的に有意な音声自然性の改善を含む,一貫して強力な結果をもたらす。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Controlling Emotion in Text-to-Speech with Natural Language Prompts [29.013577423045255]
本稿では,感情に富んだテキストの繰り返しから派生した埋め込みを前提としたシステムを提案する。
話者とプロンプト埋め込みの合同表現は、トランスフォーマーベースアーキテクチャ内のいくつかの点で統合される。
本手法は感情音声とテキストデータセットを融合して学習し,モデルの一般化能力を高めるため,各訓練におけるプロンプトを変化させる。
論文 参考訳(メタデータ) (2024-06-10T15:58:42Z) - Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。
本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文 参考訳(メタデータ) (2024-06-03T05:56:02Z) - MM-TTS: A Unified Framework for Multimodal, Prompt-Induced Emotional Text-to-Speech Synthesis [70.06396781553191]
MM-TTS(Multimodal Emotional Text-to-Speech System)は、複数のモーダルからの感情的手がかりを利用して、高表現的で感情的に共鳴する音声を生成する統合フレームワークである。
Emotion Prompt Alignment Module (EP-Align),Emotion Embedding-induced TTS (EMI-TTS),Emotion Embedding-induced TTS (Emotion Embedding-induced TTS) の2つの主要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。