論文の概要: Period VITS: Variational Inference with Explicit Pitch Modeling for
End-to-end Emotional Speech Synthesis
- arxiv url: http://arxiv.org/abs/2210.15964v1
- Date: Fri, 28 Oct 2022 07:52:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 17:44:02.939381
- Title: Period VITS: Variational Inference with Explicit Pitch Modeling for
End-to-end Emotional Speech Synthesis
- Title(参考訳): Period VITS: 終末感情音声合成のための明示的ピッチモデリングによる変分推論
- Authors: Yuma Shirahata, Ryuichi Yamamoto, Eunwoo Song, Ryo Terashima, Jae-Min
Kim, Kentaro Tachibana
- Abstract要約: 我々は,明示的な周期性生成を組み込んだ新しいエンドツーエンドテキスト音声合成モデルである Period VITS を提案する。
提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。
これらの特徴から、提案した周期性発生器は、波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波源を生成する。
- 参考スコア(独自算出の注目度): 19.422230767803246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several fully end-to-end text-to-speech (TTS) models have been proposed that
have shown better performance compared to cascade models (i.e., training
acoustic and vocoder models separately). However, they often generate unstable
pitch contour with audible artifacts when the dataset contains emotional
attributes, i.e., large diversity of pronunciation and prosody. To address this
problem, we propose Period VITS, a novel end-to-end TTS model that incorporates
an explicit periodicity generator. In the proposed method, we introduce a frame
pitch predictor that predicts prosodic features, such as pitch and voicing
flags, from the input text. From these features, the proposed periodicity
generator produces a sample-level sinusoidal source that enables the waveform
decoder to accurately reproduce the pitch. Finally, the entire model is jointly
optimized in an end-to-end manner with variational inference and adversarial
objectives. As a result, the decoder becomes capable of generating more stable,
expressive, and natural output waveforms. The experimental results showed that
the proposed model significantly outperforms baseline models in terms of
naturalness, with improved pitch stability in the generated samples.
- Abstract(参考訳): いくつかの完全なエンドツーエンドのテキスト音声合成(TTS)モデルが提案されており、カスケードモデル(音響モデルとヴォコーダモデルを別々に訓練する)よりも優れた性能を示している。
しかし、データセットが感情的属性、すなわち発音と韻律の多様さを含む場合、彼らはしばしば可聴アーチファクトと不安定なピッチ輪郭を生成する。
この問題に対処するために、明示的な周期性生成を組み込んだ新しいエンドツーエンドTSモデルである Period VITS を提案する。
提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。
これらの特徴から,提案する周期性生成器は,波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波音源を生成する。
最後に、モデル全体が変分推論と対向目的とともにエンドツーエンドで共同最適化される。
その結果、デコーダはより安定で、表現的で、自然な出力波形を生成することができる。
実験の結果, 提案モデルは, 生成した試料のピッチ安定性が向上し, 自然性の観点からはベースラインモデルを大きく上回ることがわかった。
関連論文リスト
- DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文 参考訳(メタデータ) (2023-10-02T17:42:22Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech [4.348588963853261]
メルスペクトルを生成するスコアベースデコーダを用いた新しい音声合成モデルGrad-TTSを提案する。
フレキシブル微分方程式の枠組みは、従来の拡散確率モデルを一般化するのに役立ちます。
主観評価の結果,Grad-TTS は平均オピニオンスコアにおいて最先端の音声合成手法と競合していることがわかった。
論文 参考訳(メタデータ) (2021-05-13T14:47:44Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。