論文の概要: Voice Filter: Few-shot text-to-speech speaker adaptation using voice
conversion as a post-processing module
- arxiv url: http://arxiv.org/abs/2202.08164v1
- Date: Wed, 16 Feb 2022 16:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 15:03:50.470136
- Title: Voice Filter: Few-shot text-to-speech speaker adaptation using voice
conversion as a post-processing module
- Title(参考訳): 音声フィルタ:音声変換を後処理モジュールとして用いた音声音声合成
- Authors: Adam Gabry\'s, Goeric Huybrechts, Manuel Sam Ribeiro, Chung-Ming
Chien, Julian Roth, Giulia Comini, Roberto Barra-Chicote, Bartek Perz, Jaime
Lorenzo-Trueba
- Abstract要約: 最先端の音声合成システム(TTS)は、高品質な合成音声を生成するために、数時間の音声データを記録する必要がある。
トレーニングデータの量を減らす場合、標準のTSモデルは音声品質と知性劣化に悩まされる。
本稿では,ターゲット話者からの音声を1分以内で処理するVoice Filterという,非常に低リソースなTTS手法を提案する。
- 参考スコア(独自算出の注目度): 16.369219400819134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art text-to-speech (TTS) systems require several hours of
recorded speech data to generate high-quality synthetic speech. When using
reduced amounts of training data, standard TTS models suffer from speech
quality and intelligibility degradations, making training low-resource TTS
systems problematic. In this paper, we propose a novel extremely low-resource
TTS method called Voice Filter that uses as little as one minute of speech from
a target speaker. It uses voice conversion (VC) as a post-processing module
appended to a pre-existing high-quality TTS system and marks a conceptual shift
in the existing TTS paradigm, framing the few-shot TTS problem as a VC task.
Furthermore, we propose to use a duration-controllable TTS system to create a
parallel speech corpus to facilitate the VC task. Results show that the Voice
Filter outperforms state-of-the-art few-shot speech synthesis techniques in
terms of objective and subjective metrics on one minute of speech on a diverse
set of voices, while being competitive against a TTS model built on 30 times
more data.
- Abstract(参考訳): 最先端の音声合成システム(TTS)は、高品質な合成音声を生成するために数時間の音声データを必要とする。
トレーニングデータの量を減らす場合、標準のTSモデルは音声品質と知性劣化に悩まされ、低リソースのTSシステムのトレーニングが問題となる。
本稿では,ターゲット話者からの音声を1分以内で処理するVoice Filterという,非常に低リソースなTTS手法を提案する。
既存の高品質 TTS システムに付加された後処理モジュールとして音声変換(VC)を使用し、既存の TTS パラダイムにおける概念シフトをマークし、少数ショット TTS 問題を VC タスクとしてフレーミングする。
さらに,時間制御可能なTSシステムを用いて並列音声コーパスを作成し,VC作業を容易にすることを提案する。
その結果、Voice Filterは、30倍のデータ上に構築されたTSモデルと競合しながら、音声の1分間の客観的および主観的メトリクスの観点から、最先端の複数ショット音声合成技術よりも優れていた。
関連論文リスト
- Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。
本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文 参考訳(メタデータ) (2024-06-03T05:56:02Z) - UnifySpeech: A Unified Framework for Zero-shot Text-to-Speech and Voice
Conversion [63.346825713704625]
テキスト音声変換(TTS, Text-to-Speech)と音声変換(VC)は2つの異なるタスクであり, 音質の異なる音質で音声を合成することを目的としている。
本稿では,TSとVCを統合フレームワークに初めて導入するUnifySpeechを提案する。
論文 参考訳(メタデータ) (2023-01-10T06:06:57Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。