論文の概要: AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data
- arxiv url: http://arxiv.org/abs/2104.09715v1
- Date: Tue, 20 Apr 2021 01:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 00:32:50.873660
- Title: AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data
- Title(参考訳): adaspeech 2: untranscribeed dataを用いた音声への適応テキスト
- Authors: Yuzi Yan, Xu Tan, Bohan Li, Tao Qin, Sheng Zhao, Yuan Shen, Tie-Yan
Liu
- Abstract要約: AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
- 参考スコア(独自算出の注目度): 115.38309338462588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text to speech (TTS) is widely used to synthesize personal voice for a target
speaker, where a well-trained source TTS model is fine-tuned with few paired
adaptation data (speech and its transcripts) on this target speaker. However,
in many scenarios, only untranscribed speech data is available for adaptation,
which brings challenges to the previous TTS adaptation pipelines (e.g.,
AdaSpeech). In this paper, we develop AdaSpeech 2, an adaptive TTS system that
only leverages untranscribed speech data for adaptation. Specifically, we
introduce a mel-spectrogram encoder to a well-trained TTS model to conduct
speech reconstruction, and at the same time constrain the output sequence of
the mel-spectrogram encoder to be close to that of the original phoneme
encoder. In adaptation, we use untranscribed speech data for speech
reconstruction and only fine-tune the TTS decoder. AdaSpeech 2 has two
advantages: 1) Pluggable: our system can be easily applied to existing trained
TTS models without re-training. 2) Effective: our system achieves on-par voice
quality with the transcribed TTS adaptation (e.g., AdaSpeech) with the same
amount of untranscribed data, and achieves better voice quality than previous
untranscribed adaptation methods. Synthesized speech samples can be found at
https://speechresearch.github.io/adaspeech2/.
- Abstract(参考訳): テキスト・トゥ・スピーチ(TTS)は、ターゲット話者の個人音声の合成に広く用いられており、十分に訓練されたソースTSモデルは、このターゲット話者のペア適応データ(音声とその転写)をほとんど含まない微調整される。
しかし、多くのシナリオでは、書き起こされていない音声データのみが適応可能であり、以前のTS適応パイプライン(例えばAdaSpeech)に課題をもたらす。
本稿では,書き起こされていない音声データのみを活用した適応型ttsシステムadaspeech 2を開発した。
具体的には、よく訓練されたTSモデルにメルスペクトルエンコーダを導入して音声再構成を行うと同時に、メルスペクトルエンコーダの出力シーケンスを元の音素エンコーダに近いものに制限する。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
AdaSpeech 2 には2つの利点がある: 1) プラガブル: 既存のトレーニング済み TTS モデルにシステムを再トレーニングせずに簡単に適用できる。
2) 実効性: このシステムは, 書き起こしTTS適応(例: AdaSpeech)と同一量の書き起こしデータを用いてオンパー音声品質を達成し, 従来の書き起こしなし適応法よりも優れた音声品質を実現する。
合成音声サンプルはhttps://speechresearch.github.io/adaspeech2/で見ることができる。
関連論文リスト
- Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis [30.97784092953007]
本稿では、アクセント付き音声認識を改善するためのデータ拡張手法として、教師なし音声合成(TTS)の使用について検討する。
TTSシステムは、手書き文字起こしではなく、少量のアクセント付き音声訓練データとそれらの擬似ラベルで訓練される。
この手法により,アクセント付き音声認識のためのデータ拡張を行うために,手書きの書き起こしを伴わないアクセント付き音声データを使用することが可能である。
論文 参考訳(メタデータ) (2024-07-04T16:42:24Z) - Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech
with Untranscribed Data [25.709370310448328]
非転写データを用いた高品質適応型TSのための拡散モデルである Guided-TTS 2 を提案する。
我々は,大規模無転写データセット上で話者条件拡散モデルを訓練し,分類器フリーガイダンス法を提案する。
Guided-TTS 2は、音声品質と話者類似性の観点から、高品質な単一話者TTSベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-05-30T18:30:20Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Voice Filter: Few-shot text-to-speech speaker adaptation using voice
conversion as a post-processing module [16.369219400819134]
最先端の音声合成システム(TTS)は、高品質な合成音声を生成するために、数時間の音声データを記録する必要がある。
トレーニングデータの量を減らす場合、標準のTSモデルは音声品質と知性劣化に悩まされる。
本稿では,ターゲット話者からの音声を1分以内で処理するVoice Filterという,非常に低リソースなTTS手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T16:12:21Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。