論文の概要: Voice Cloning: a Multi-Speaker Text-to-Speech Synthesis Approach based
on Transfer Learning
- arxiv url: http://arxiv.org/abs/2102.05630v1
- Date: Wed, 10 Feb 2021 18:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 02:56:35.217125
- Title: Voice Cloning: a Multi-Speaker Text-to-Speech Synthesis Approach based
on Transfer Learning
- Title(参考訳): 音声クローニング:転送学習に基づくマルチスピーカテキスト音声合成手法
- Authors: Giuseppe Ruggiero, Enrico Zovato, Luigi Di Caro, Vincent Pollet
- Abstract要約: 提案手法は,マルチスピーカ音響空間をモデル化可能なシステムを実現するために,これらの制約を克服することを目的としている。
これにより、訓練期間中に観測されていなくても、異なる話者の声に似た音声を生成することができる。
- 参考スコア(独自算出の注目度): 0.802904964931021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models are becoming predominant in many fields of machine
learning. Text-to-Speech (TTS), the process of synthesizing artificial speech
from text, is no exception. To this end, a deep neural network is usually
trained using a corpus of several hours of recorded speech from a single
speaker. Trying to produce the voice of a speaker other than the one learned is
expensive and requires large effort since it is necessary to record a new
dataset and retrain the model. This is the main reason why the TTS models are
usually single speaker. The proposed approach has the goal to overcome these
limitations trying to obtain a system which is able to model a multi-speaker
acoustic space. This allows the generation of speech audio similar to the voice
of different target speakers, even if they were not observed during the
training phase.
- Abstract(参考訳): ディープラーニングモデルは、機械学習の多くの分野で主流になりつつある。
テキストから人工音声を合成するTTS(Text-to-Speech)は例外ではない。
この目的のために、ディープニューラルネットワークは通常、単一のスピーカーから数時間の音声を録音するコーパスを使用して訓練される。
学習した話者以外の話者の声の生成は高価であり、新しいデータセットを記録してモデルを再トレーニングする必要があるため、多大な労力を要する。
これは、TSSモデルが通常単一のスピーカーである主な理由です。
提案されたアプローチは、マルチスピーカー音響空間をモデル化できるシステムを獲得しようとするこれらの制限を克服することを目的としている。
これにより、訓練期間中に観察されなかったとしても、異なるターゲット話者の声に似た音声を生成することができる。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Multi-speaker Emotional Text-to-speech Synthesizer [7.401418995454494]
マルチ話者感情テキスト音声合成装置は、10人の話者の7つの異なる感情の音声を表現できる。
オーディオサンプルからのすべての沈黙は、学習前に取り除かれる。
我々のモデルは、まず大きな単一話者中立データセットで訓練される。
論文 参考訳(メタデータ) (2021-12-07T08:12:41Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。