論文の概要: Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech
Synthesis
- arxiv url: http://arxiv.org/abs/2107.12562v1
- Date: Tue, 27 Jul 2021 02:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:27:36.484041
- Title: Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech
Synthesis
- Title(参考訳): 韻律ボトルネックを伴うニューラル音声合成におけるクロススピーカー方式の伝達
- Authors: Shifeng Pan and Lei He
- Abstract要約: マルチスタイルおよび表現型音声合成を大規模に適用するには,クロススピーカ方式の転送が不可欠である。
既存のスタイル転送メソッドは、まだ実際のアプリケーションのニーズよりはるかに遅れています。
本稿では, 明瞭な韻律ボトルネックを考慮した話者間通信方式のテキスト音声合成モデルを提案する。
- 参考スコア(独自算出の注目度): 8.603535906880937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-speaker style transfer is crucial to the applications of multi-style
and expressive speech synthesis at scale. It does not require the target
speakers to be experts in expressing all styles and to collect corresponding
recordings for model training. However, the performances of existing style
transfer methods are still far behind real application needs. The root causes
are mainly twofold. Firstly, the style embedding extracted from single
reference speech can hardly provide fine-grained and appropriate prosody
information for arbitrary text to synthesize. Secondly, in these models the
content/text, prosody, and speaker timbre are usually highly entangled, it's
therefore not realistic to expect a satisfied result when freely combining
these components, such as to transfer speaking style between speakers. In this
paper, we propose a cross-speaker style transfer text-to-speech (TTS) model
with explicit prosody bottleneck. The prosody bottleneck builds up the kernels
accounting for speaking style robustly, and disentangles the prosody from
content and speaker timbre, therefore guarantees high quality cross-speaker
style transfer. Evaluation result shows the proposed method even achieves
on-par performance with source speaker's speaker-dependent (SD) model in
objective measurement of prosody, and significantly outperforms the cycle
consistency and GMVAE-based baselines in objective and subjective evaluations.
- Abstract(参考訳): マルチスタイルおよび表現型音声合成を大規模に適用するには,クロススピーカ方式の転送が不可欠である。
対象のスピーカーがすべてのスタイルを表現し、モデルトレーニングのために対応する録音を収集する専門家である必要はない。
しかし、既存のスタイル転送メソッドのパフォーマンスは、まだ実際のアプリケーションニーズに及ばない。
根本原因は主に2倍である。
第一に、単一参照音声から抽出されたスタイル埋め込みは、任意のテキストを合成するための細かな適切な韻律情報を提供できない。
第2に、これらのモデルでは、コンテンツ/テキスト、韻律、話者の音色は、通常非常に絡み合っており、スピーカー間で話すスタイルを転送するなど、これらのコンポーネントを自由に組み合わせて満足のいく結果を期待することは現実的ではない。
本稿では,韻律的ボトルネックを明示した話者間移動テキスト音声合成(TTS)モデルを提案する。
韻律ボトルネックは、発話スタイルを堅牢に計算するカーネルを構築し、コンテンツや話者の音色から韻律を分離することで、高品質なクロススピーカースタイル転送を保証する。
評価結果から,提案手法は,韻律の客観的測定において,話者依存型(SD)モデルを用いたオンパー性能をも達成し,客観的および主観的評価において,サイクルの整合性とGMVAEベースラインを著しく上回ることを示す。
関連論文リスト
- StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based
Pre-training for Expressive Audiobook Speech Synthesis [63.019962126807116]
音声ブックの合成音声の表現的品質は、一般化されたモデルアーキテクチャとアンバランスなスタイル分布によって制限される。
本稿では,VQ-VAEに基づく音声合成のための事前学習による自己教師付きスタイル向上手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T14:13:26Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any
Voice Conversion using Only Speech Data [2.6217304977339473]
本稿では,ターゲット発話からリッチなスタイル情報を抽出し,ソース音声コンテンツに効率的に転送する手法を提案する。
提案手法では,自己教師付き学習(SSL)モデルを用いた注意機構を提案する。
実験結果から,提案手法と拡散型生成モデルを組み合わせることで,任意の音声変換タスクにおいて,話者の類似性が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-09-06T05:33:54Z) - Improving Prosody for Cross-Speaker Style Transfer by Semi-Supervised
Style Extractor and Hierarchical Modeling in Speech Synthesis [37.65745551401636]
音声合成におけるクロススピーカースタイルの伝達は,音源話者から対象話者の音色を合成した音声へスタイルを伝達することを目的としている。
従来の方法では、合成された微細な韻律の特徴は、しばしばソース話者の平均的なスタイルを表す。
コンテントと音色からスタイルを引き離すために, 強度制御型半教師付きスタイル抽出器を提案する。
論文 参考訳(メタデータ) (2023-03-14T08:52:58Z) - Style-Label-Free: Cross-Speaker Style Transfer by Quantized VAE and
Speaker-wise Normalization in Speech Synthesis [37.19266733527613]
音声合成におけるクロススピーカースタイルの伝達は、音源話者からターゲット話者の音色を合成した音声へスタイルを伝達することを目的としている。
これまでのほとんどのアプローチはスタイルラベルを持つデータに依存していたが、手動でアノテートされたラベルは高価であり、常に信頼できるとは限らない。
そこで我々は,話者間通信方式であるStyle-Label-Freeを提案する。
論文 参考訳(メタデータ) (2022-12-13T06:26:25Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。