論文の概要: ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech
- arxiv url: http://arxiv.org/abs/2202.07816v1
- Date: Wed, 16 Feb 2022 01:42:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 15:32:08.580473
- Title: ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech
- Title(参考訳): ProsoSpeech: テキストから音声への量子ベクトル事前学習による韻律の強化
- Authors: Yi Ren, Ming Lei, Zhiying Huang, Shiliang Zhang, Qian Chen, Zhijie
Yan, Zhou Zhao
- Abstract要約: 音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
- 参考スコア(独自算出の注目度): 96.0009517132463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expressive text-to-speech (TTS) has become a hot research topic recently,
mainly focusing on modeling prosody in speech. Prosody modeling has several
challenges: 1) the extracted pitch used in previous prosody modeling works have
inevitable errors, which hurts the prosody modeling; 2) different attributes of
prosody (e.g., pitch, duration and energy) are dependent on each other and
produce the natural prosody together; and 3) due to high variability of prosody
and the limited amount of high-quality data for TTS training, the distribution
of prosody cannot be fully shaped. To tackle these issues, we propose
ProsoSpeech, which enhances the prosody using quantized latent vectors
pre-trained on large-scale unpaired and low-quality text and speech data.
Specifically, we first introduce a word-level prosody encoder, which quantizes
the low-frequency band of the speech and compresses prosody attributes in the
latent prosody vector (LPV). Then we introduce an LPV predictor, which predicts
LPV given word sequence. We pre-train the LPV predictor on large-scale text and
low-quality speech data and fine-tune it on the high-quality TTS dataset.
Finally, our model can generate expressive speech conditioned on the predicted
LPV. Experimental results show that ProsoSpeech can generate speech with richer
prosody compared with baseline methods.
- Abstract(参考訳): 近年,音声における韻律のモデル化を中心に,表現型音声合成(TTS)が注目されている。
韻律モデリングにはいくつかの課題があります
1) 前述した韻律モデリング作業における抽出ピッチは,必然的に誤りがあり,それが韻律モデリングを損なう。
2) プロソディの異なる特性(例えば、ピッチ、持続時間、エネルギー)は、互いに依存し、自然のプロソディを一緒に生成する。
3) プロソディの多様性が高く, TTSトレーニングにおける高品質なデータ量が少ないため, プロソディの分布は完全には形成できない。
これらの課題に対処するために,大規模で低品質なテキストと音声データに基づいて事前学習した量子化潜在ベクトルを用いて韻律を向上するProsoSpeechを提案する。
具体的には、まず音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)の韻律特性を圧縮する単語レベル韻律エンコーダを導入する。
次に LPV 予測器を導入し,LPV の単語列を予測する。
我々はLPV予測器を大規模テキストと低品質音声データで事前訓練し、高品質のTSデータセットで微調整する。
最後に,予測したlpvを条件とした表現型音声を生成する。
実験の結果,prosospeechは,ベースライン法と比較して,より豊かな韻律を持つ音声を生成できることがわかった。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models [127.47252277138708]
ゼロショット方式で自然な音声を生成するために,分解拡散モデルを備えたTSSシステムであるNaturalSpeech 3を提案する。
具体的には、分解ベクトル量子化(FVQ)を用いて、音声波形をコンテンツ、韻律、音色、音響的詳細の部分空間に分解する。
実験により、NaturalSpeech 3は、品質、類似性、韻律、知性において最先端のTSSシステムより優れていることが示された。
論文 参考訳(メタデータ) (2024-03-05T16:35:25Z) - DPP-TTS: Diversifying prosodic features of speech via determinantal
point processes [16.461724709212863]
本稿では,DPP(Determinantal Point Processes)に基づく音声合成モデルDPP-TTSを提案する。
TTSモデルは,各サンプルおよび複数のサンプル間の知覚的多様性を同時に考慮した音声サンプルを生成することができる。
論文 参考訳(メタデータ) (2023-10-23T07:59:46Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing
Linguistic Information and Noisy Data [20.132799566988826]
本稿では,BERTをベースとした精密なフロントエンドと事前学習したFastSpeech2ベースの音響モデルを組み合わせることで,韻律モデリングを改善することを提案する。
実験結果から,細調整されたBERTモデルと事前訓練されたFastSpeech 2の両方が,特に構造的に複雑な文の韻律を改善できることが示唆された。
論文 参考訳(メタデータ) (2021-11-15T05:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。