論文の概要: FastSpeech 2: Fast and High-Quality End-to-End Text to Speech
- arxiv url: http://arxiv.org/abs/2006.04558v8
- Date: Mon, 8 Aug 2022 01:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 01:17:59.444776
- Title: FastSpeech 2: Fast and High-Quality End-to-End Text to Speech
- Title(参考訳): FastSpeech 2: 高速かつ高品質なエンドツーエンド音声テキスト
- Authors: Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu
- Abstract要約: FastSpeechのような非自己回帰テキスト・トゥ・スピーチ(TTS)モデルは、同等の品質の以前の自己回帰モデルよりもはるかに高速に音声を合成することができる。
FastSpeechには,(1)教師-学生蒸留パイプラインが複雑で時間を要すること,(2)教師モデルから抽出した期間が十分正確でないこと,(2)教師モデルから抽出したターゲットメル-スペクトログラムが情報損失に悩まされていること,など,いくつかの欠点がある。
我々は,教師の簡易な出力ではなく,接地目標でモデルを直接訓練するFastSpeech 2を提案する。
- 参考スコア(独自算出の注目度): 189.05831125931053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive text to speech (TTS) models such as FastSpeech can
synthesize speech significantly faster than previous autoregressive models with
comparable quality. The training of FastSpeech model relies on an
autoregressive teacher model for duration prediction (to provide more
information as input) and knowledge distillation (to simplify the data
distribution in output), which can ease the one-to-many mapping problem (i.e.,
multiple speech variations correspond to the same text) in TTS. However,
FastSpeech has several disadvantages: 1) the teacher-student distillation
pipeline is complicated and time-consuming, 2) the duration extracted from the
teacher model is not accurate enough, and the target mel-spectrograms distilled
from teacher model suffer from information loss due to data simplification,
both of which limit the voice quality. In this paper, we propose FastSpeech 2,
which addresses the issues in FastSpeech and better solves the one-to-many
mapping problem in TTS by 1) directly training the model with ground-truth
target instead of the simplified output from teacher, and 2) introducing more
variation information of speech (e.g., pitch, energy and more accurate
duration) as conditional inputs. Specifically, we extract duration, pitch and
energy from speech waveform and directly take them as conditional inputs in
training and use predicted values in inference. We further design FastSpeech
2s, which is the first attempt to directly generate speech waveform from text
in parallel, enjoying the benefit of fully end-to-end inference. Experimental
results show that 1) FastSpeech 2 achieves a 3x training speed-up over
FastSpeech, and FastSpeech 2s enjoys even faster inference speed; 2) FastSpeech
2 and 2s outperform FastSpeech in voice quality, and FastSpeech 2 can even
surpass autoregressive models. Audio samples are available at
https://speechresearch.github.io/fastspeech2/.
- Abstract(参考訳): FastSpeechのような非自己回帰テキスト・トゥ・スピーチ(TTS)モデルは、同等の品質の以前の自己回帰モデルよりもはるかに高速に音声を合成することができる。
FastSpeechモデルのトレーニングは、時間予測(入力としてより多くの情報を提供する)と知識蒸留(出力におけるデータ分散を単純化する)のための自己回帰型教師モデルに依存しており、TTSにおける1対1のマッピング問題(つまり、複数の音声変化は同じテキストに対応する)を緩和することができる。
しかしFastSpeechにはいくつかの欠点がある。
1)教師-学生蒸留パイプラインは複雑で時間を要する。
2)教師モデルから抽出した継続時間は十分に正確ではなく,教師モデルから蒸留した目標メルスペクトログラムは,音声品質を制限したデータ単純化による情報損失に苦しむ。
本稿では,fastspeech 2 を提案する。fastspeech の問題に対処し,tts における一対多マッピング問題をよりよく解く。
1)教師からの簡易な出力の代わりに、地上目標でモデルを直接訓練し、
2) 条件入力として, 音声の変動情報(ピッチ, エネルギー, より正確な持続時間など)を導入する。
具体的には, 音声波形から時間, ピッチ, エネルギーを抽出し, 直接条件入力とし, 予測値を用いて推論を行う。
さらに,テキストから音声波形を並列に生成する最初の試みであるfastspeech 2sの設計を行い,完全なエンドツーエンド推論の利点を享受した。
実験の結果
1) FastSpeech 2は、FastSpeechよりも3倍のトレーニングスピードアップを実現し、FastSpeech 2sはさらに高速な推論速度を享受する。
2) FastSpeech 2と2sは、音声品質でFastSpeechを上回り、FastSpeech 2は自動回帰モデルを超えます。
オーディオサンプルはhttps://speechresearch.github.io/fastspeech2/で入手できる。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - FlashSpeech: Efficient Zero-Shot Speech Synthesis [37.883762387219676]
FlashSpeechは、大規模なゼロショット音声合成システムであり、従来の作業と比べて約5%の推論時間を持つ。
我々は,FlashSpeechが他のゼロショット音声合成システムよりも約20倍高速でありながら,音声品質と類似性において同等の性能を維持していることを示す。
論文 参考訳(メタデータ) (2024-04-23T02:57:46Z) - DASpeech: Directed Acyclic Transformer for Fast and High-quality
Speech-to-Speech Translation [36.126810842258706]
直接音声音声変換(S2ST)は、1つのモデルを用いて、ある言語から別の言語に音声を翻訳する。
言語的および音響的多様性が存在するため、ターゲット音声は複雑な多モーダル分布に従う。
高速かつ高品質なS2STを実現する非自己回帰直接S2STモデルであるDASpeechを提案する。
論文 参考訳(メタデータ) (2023-10-11T11:39:36Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。