論文の概要: Using multiple reference audios and style embedding constraints for
speech synthesis
- arxiv url: http://arxiv.org/abs/2110.04451v1
- Date: Sat, 9 Oct 2021 04:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-17 04:07:21.452357
- Title: Using multiple reference audios and style embedding constraints for
speech synthesis
- Title(参考訳): 複数の参照音声とスタイル埋め込み制約を用いた音声合成
- Authors: Cheng Gong, Longbiao Wang, Zhenhua Ling, Ju Zhang, Jianwu Dang
- Abstract要約: 提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
- 参考スコア(独自算出の注目度): 68.62945852651383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The end-to-end speech synthesis model can directly take an utterance as
reference audio, and generate speech from the text with prosody and speaker
characteristics similar to the reference audio. However, an appropriate
acoustic embedding must be manually selected during inference. Due to the fact
that only the matched text and speech are used in the training process, using
unmatched text and speech for inference would cause the model to synthesize
speech with low content quality. In this study, we propose to mitigate these
two problems by using multiple reference audios and style embedding constraints
rather than using only the target audio. Multiple reference audios are
automatically selected using the sentence similarity determined by
Bidirectional Encoder Representations from Transformers (BERT). In addition, we
use ''target'' style embedding from a Pre-trained encoder as a constraint by
considering the mutual information between the predicted and ''target'' style
embedding. The experimental results show that the proposed model can improve
the speech naturalness and content quality with multiple reference audios and
can also outperform the baseline model in ABX preference tests of style
similarity.
- Abstract(参考訳): エンド・ツー・エンド音声合成モデルは、直接発話を基準音声とし、韻律や話者特性が基準音声と類似したテキストから音声を生成することができる。
しかし、適切な音響埋め込みは推論中に手動で選択しなければならない。
学習過程において、一致したテキストと音声のみを使用するという事実から、不一致のテキストと音声を推論に使用すると、モデルが低品質の音声を合成する。
本研究では,対象音声のみを使用するのではなく,複数の参照オーディオとスタイル埋め込み制約を用いることで,この2つの問題を解決することを提案する。
変換器(BERT)からの双方向エンコーダ表現によって決定される文類似性を用いて、複数の参照オーディオを自動的に選択する。
また,事前学習エンコーダからの「ターゲット」スタイルの埋め込みを,予測と「ターゲット」スタイルの埋め込みの相互情報を考慮した制約として用いる。
実験の結果,提案モデルは複数の参照オーディオを用いて音声の自然性やコンテンツ品質を向上でき,スタイル類似性のabx嗜好テストではベースラインモデルよりも優れることがわかった。
関連論文リスト
- TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos [44.14061539284888]
そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
論文 参考訳(メタデータ) (2022-12-14T07:21:45Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。