論文の概要: Improving Prosody for Cross-Speaker Style Transfer by Semi-Supervised
Style Extractor and Hierarchical Modeling in Speech Synthesis
- arxiv url: http://arxiv.org/abs/2303.07711v1
- Date: Tue, 14 Mar 2023 08:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 16:00:01.851168
- Title: Improving Prosody for Cross-Speaker Style Transfer by Semi-Supervised
Style Extractor and Hierarchical Modeling in Speech Synthesis
- Title(参考訳): 半教師形抽出器によるクロススピーカー方式の韻律改善と音声合成における階層モデル
- Authors: Chunyu Qiang, Peng Yang, Hao Che, Ying Zhang, Xiaorui Wang, Zhongyuan
Wang
- Abstract要約: 音声合成におけるクロススピーカースタイルの伝達は,音源話者から対象話者の音色を合成した音声へスタイルを伝達することを目的としている。
従来の方法では、合成された微細な韻律の特徴は、しばしばソース話者の平均的なスタイルを表す。
コンテントと音色からスタイルを引き離すために, 強度制御型半教師付きスタイル抽出器を提案する。
- 参考スコア(独自算出の注目度): 37.65745551401636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-speaker style transfer in speech synthesis aims at transferring a style
from source speaker to synthesized speech of a target speaker's timbre. In most
previous methods, the synthesized fine-grained prosody features often represent
the source speaker's average style, similar to the one-to-many problem(i.e.,
multiple prosody variations correspond to the same text). In response to this
problem, a strength-controlled semi-supervised style extractor is proposed to
disentangle the style from content and timbre, improving the representation and
interpretability of the global style embedding, which can alleviate the
one-to-many mapping and data imbalance problems in prosody prediction. A
hierarchical prosody predictor is proposed to improve prosody modeling. We find
that better style transfer can be achieved by using the source speaker's
prosody features that are easily predicted. Additionally, a
speaker-transfer-wise cycle consistency loss is proposed to assist the model in
learning unseen style-timbre combinations during the training phase.
Experimental results show that the method outperforms the baseline. We provide
a website with audio samples.
- Abstract(参考訳): 音声合成におけるクロススピーカースタイルの伝達は,音源話者から対象話者の音色の合成音声へスタイルを伝達することを目的としている。
以前のほとんどの方法では、合成された細粒度の韻律特徴はしばしばソース話者の平均的なスタイルを表し、1対1の問題(つまり、複数の韻律変化が同じテキストに対応する)と類似している。
この問題に対応するために,コンテンツと音色からスタイルを分離し,一対多のマッピングとデータ不均衡を回避できるグローバルスタイル埋め込みの表現と解釈性を向上させるために,強度制御された半教師付きスタイル抽出器を提案する。
韻律モデリングを改善するために階層的韻律予測器を提案する。
予測が容易な音源話者の韻律的特徴を用いることで,より優れたスタイル伝達を実現することができる。
さらに, 学習段階における非知覚スタイルと音色の組み合わせの学習において, モデルを支援するために, 話者間伝達周期の一貫性損失が提案されている。
実験の結果,本手法はベースラインよりも優れていた。
オーディオサンプルをWebサイトに提供する。
関連論文リスト
- Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Style-Label-Free: Cross-Speaker Style Transfer by Quantized VAE and
Speaker-wise Normalization in Speech Synthesis [37.19266733527613]
音声合成におけるクロススピーカースタイルの伝達は、音源話者からターゲット話者の音色を合成した音声へスタイルを伝達することを目的としている。
これまでのほとんどのアプローチはスタイルラベルを持つデータに依存していたが、手動でアノテートされたラベルは高価であり、常に信頼できるとは限らない。
そこで我々は,話者間通信方式であるStyle-Label-Freeを提案する。
論文 参考訳(メタデータ) (2022-12-13T06:26:25Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Speaker Adaption with Intuitive Prosodic Features for Statistical
Parametric Speech Synthesis [50.5027550591763]
統計的パラメトリック音声合成のための直感的な韻律特徴を持つ話者適応法を提案する。
直感的な韻律的特徴は発話レベルまたは話者レベルで抽出され、それぞれ既存の話者エンコーディングベースおよび話者エンベディングベース適応フレームワークに統合される。
論文 参考訳(メタデータ) (2022-03-02T09:00:31Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech
Synthesis [8.603535906880937]
マルチスタイルおよび表現型音声合成を大規模に適用するには,クロススピーカ方式の転送が不可欠である。
既存のスタイル転送メソッドは、まだ実際のアプリケーションのニーズよりはるかに遅れています。
本稿では, 明瞭な韻律ボトルネックを考慮した話者間通信方式のテキスト音声合成モデルを提案する。
論文 参考訳(メタデータ) (2021-07-27T02:43:57Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z) - Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis [18.812696623555855]
複数発話音声合成手法 (FSM-SS) を提案する。
FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。
正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-14T04:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。