論文の概要: Text-driven Emotional Style Control and Cross-speaker Style Transfer in
Neural TTS
- arxiv url: http://arxiv.org/abs/2207.06000v1
- Date: Wed, 13 Jul 2022 07:05:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 12:51:40.309618
- Title: Text-driven Emotional Style Control and Cross-speaker Style Transfer in
Neural TTS
- Title(参考訳): ニューラルTSにおけるテキスト駆動型感情スタイル制御とクロススピーカースタイル転送
- Authors: Yookyung Shin, Younggun Lee, Suhee Jo, Yeongtae Hwang, Taesu Kim
- Abstract要約: 合成音声のスタイル制御は、しばしば個別の感情カテゴリーに制限される。
マルチスピーカTTSにおける感情的スタイル制御とクロススピーカースタイル転送のためのテキストベースインタフェースを提案する。
- 参考スコア(独自算出の注目度): 7.384726530165295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expressive text-to-speech has shown improved performance in recent years.
However, the style control of synthetic speech is often restricted to discrete
emotion categories and requires training data recorded by the target speaker in
the target style. In many practical situations, users may not have reference
speech recorded in target emotion but still be interested in controlling speech
style just by typing text description of desired emotional style. In this
paper, we propose a text-based interface for emotional style control and
cross-speaker style transfer in multi-speaker TTS. We propose the bi-modal
style encoder which models the semantic relationship between text description
embedding and speech style embedding with a pretrained language model. To
further improve cross-speaker style transfer on disjoint, multi-style datasets,
we propose the novel style loss. The experimental results show that our model
can generate high-quality expressive speech even in unseen style.
- Abstract(参考訳): 近年,表現的音声合成が向上している。
しかし、合成音声のスタイル制御は、しばしば個別の感情カテゴリーに限定され、ターゲット話者がターゲットスタイルで記録する訓練データを必要とする。
多くの実用的な状況では、ユーザはターゲット感情に記録された参照音声を持っていないが、望ましい感情スタイルのテキスト記述をタイプするだけで、音声スタイルを制御することに関心を持っている。
本稿では,マルチスピーカTSにおける感情的スタイル制御とクロススピーカスタイル転送のためのテキストベースインタフェースを提案する。
テキスト記述の埋め込みと、事前訓練された言語モデルによる音声スタイルの埋め込みのセマンティックな関係をモデル化するバイモーダルスタイルエンコーダを提案する。
異種多型データセット上でのクロススピーカー方式の転送をさらに改善するため,新しいスタイル損失を提案する。
実験の結果,本モデルは未熟なスタイルでも高品質な表現型音声を生成できることがわかった。
関連論文リスト
- Style Mixture of Experts for Expressive Text-To-Speech Synthesis [7.6732312922460055]
StyleMoEは、スタイルエンコーダにおける平均的なスタイル表現の学習の問題に対処するアプローチである。
提案手法は,TSフレームワークのスタイルエンコーダをMixture of Expertsレイヤに置き換える。
客観的および主観的両方の実験は,多様かつ見当たらない参照音声に対するスタイル伝達の改善を実証した。
論文 参考訳(メタデータ) (2024-06-05T22:17:47Z) - Expressive TTS Driven by Natural Language Prompts Using Few Human
Annotations [12.891344121936902]
Expressive Text-to-Speech (TTS) は、人間の声調、気分、さらには芸術的特性で音声を合成することを目的としている。
TTSの最近の進歩は、自然言語のプロンプトを通じて、ユーザーが直接合成スタイルを制御できるようになる。
最小限のアノテーションを持つ制御可能な表現型TSモデルであるFreeStyleTTS(FS-TTS)を提案する。
論文 参考訳(メタデータ) (2023-11-02T14:20:37Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - ZS-MSTM: Zero-Shot Style Transfer for Gesture Animation driven by Text
and Speech using Adversarial Disentanglement of Multimodal Style Encoding [3.609538870261841]
韻律的特徴とテキストによって駆動されるジェスチャーを、異なる話者のスタイルで合成する機械学習手法を提案する。
本モデルでは,PATSデータベースからのマルチモーダルデータを用いたゼロショットマルチモーダル方式の転送を行う。
論文 参考訳(メタデータ) (2023-05-22T10:10:35Z) - Conversation Style Transfer using Few-Shot Learning [56.43383396058639]
本稿では,会話スタイルの伝達を数ショットの学習問題として紹介する。
そこで本研究では,スタイルフリー対話による課題をピボットとして解くための,コンテキスト内学習手法を提案する。
会話スタイルの転送は下流のタスクにも役立ちます。
論文 参考訳(メタデータ) (2023-02-16T15:27:00Z) - Self-supervised Context-aware Style Representation for Expressive Speech
Synthesis [23.460258571431414]
本稿では,平文からスタイル表現を自己教師型で学習するための新しいフレームワークを提案する。
感情のレキシコンを活用し、対照的な学習と深いクラスタリングを使用する。
本手法は,音声ブック音声におけるドメイン内およびドメイン外テストセットの主観的評価に基づいて,改善された結果を実現する。
論文 参考訳(メタデータ) (2022-06-25T05:29:48Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。