論文の概要: Cross-speaker style transfer for text-to-speech using data augmentation
- arxiv url: http://arxiv.org/abs/2202.05083v1
- Date: Thu, 10 Feb 2022 15:10:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 15:18:47.618310
- Title: Cross-speaker style transfer for text-to-speech using data augmentation
- Title(参考訳): データ拡張を用いたテキスト音声のクロススピーカースタイル転送
- Authors: Manuel Sam Ribeiro, Julian Roth, Giulia Comini, Goeric Huybrechts,
Adam Gabrys, Jaime Lorenzo-Trueba
- Abstract要約: 音声変換によるデータ拡張を用いた音声合成(TTS)における話者間通信の問題点に対処する。
対象話者から中性非表現データのコーパスを持ち、異なる話者からの会話表現データをサポートすると仮定する。
提案した技術を、7つの言語にまたがる14の話者のセットにスケールすることで、結論付けます。
- 参考スコア(独自算出の注目度): 11.686745250628247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of cross-speaker style transfer for text-to-speech
(TTS) using data augmentation via voice conversion. We assume to have a corpus
of neutral non-expressive data from a target speaker and supporting
conversational expressive data from different speakers. Our goal is to build a
TTS system that is expressive, while retaining the target speaker's identity.
The proposed approach relies on voice conversion to first generate high-quality
data from the set of supporting expressive speakers. The voice converted data
is then pooled with natural data from the target speaker and used to train a
single-speaker multi-style TTS system. We provide evidence that this approach
is efficient, flexible, and scalable. The method is evaluated using one or more
supporting speakers, as well as a variable amount of supporting data. We
further provide evidence that this approach allows some controllability of
speaking style, when using multiple supporting speakers. We conclude by scaling
our proposed technology to a set of 14 speakers across 7 languages. Results
indicate that our technology consistently improves synthetic samples in terms
of style similarity, while retaining the target speaker's identity.
- Abstract(参考訳): 音声変換によるデータ拡張を用いた音声合成(TTS)における話者間通信の問題点に対処する。
対象話者から中性非表現データのコーパスを持ち、異なる話者からの会話表現データをサポートすると仮定する。
我々の目標は、ターゲット話者のアイデンティティを維持しつつ、表現力のあるTSシステムを構築することです。
提案手法は,まず音声変換を用いて,表現力の高い話者群から高品質なデータを生成する。
音声変換されたデータは、ターゲットスピーカーからの自然なデータでプールされ、単一スピーカのマルチスタイルTSシステムのトレーニングに使用される。
このアプローチが効率的で柔軟性があり、スケーラブルであることの証拠を提供します。
この方法は、1つ以上の支持話者と、様々な支持データの量を用いて評価される。
さらに,複数の支援話者を用いた場合,このアプローチが発話スタイルをある程度制御可能であることを示す。
最後に、提案する技術を7つの言語にまたがって14人の話者に拡大する。
その結果,本技術はターゲット話者の身元を保ちながら,スタイルの類似性の観点から一貫して合成サンプルを改良していることがわかった。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Improve Cross-lingual Voice Cloning Using Low-quality Code-switched Data [11.18504333789534]
そこで本研究では,非対象話者からの低品質なコード切替データを用いて,対象話者に対する言語間音声のクローニングを実現することを提案する。
実験により,提案手法は,自然性と話者の整合性の両面から,目標音声における高品質なコードスイッチ音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2021-10-14T08:16:06Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - Low-resource expressive text-to-speech using data augmentation [12.396086122947679]
本稿では,大量のターゲットデータを記録するコストのかかる操作を回避するために,新しい3段階の手法を提案する。
我々は、他の話者からの所望の話し方での録音を活用することで、音声変換によるデータ拡張を行う。
次に、利用可能な録音の上に合成データを使って、TSモデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-11T11:22:37Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。