論文の概要: Differentiable Duration Modeling for End-to-End Text-to-Speech
- arxiv url: http://arxiv.org/abs/2203.11049v1
- Date: Mon, 21 Mar 2022 15:14:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 20:40:18.213271
- Title: Differentiable Duration Modeling for End-to-End Text-to-Speech
- Title(参考訳): エンド・ツー・エンドテキスト・ツー・スパイチの微分可能持続時間モデル
- Authors: Bac Nguyen, Fabien Cardinaux, Stefan Uhlich
- Abstract要約: 並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
- 参考スコア(独自算出の注目度): 6.571447892202893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallel text-to-speech (TTS) models have recently enabled fast and
highly-natural speech synthesis. However, such models typically require
external alignment models, which are not necessarily optimized for the decoder
as they are not jointly trained. In this paper, we propose a differentiable
duration method for learning monotonic alignments between input and output
sequences. Our method is based on a soft-duration mechanism that optimizes a
stochastic process in expectation. Using this differentiable duration method, a
direct text to waveform TTS model is introduced to produce raw audio as output
instead of performing neural vocoding. Our model learns to perform
high-fidelity speech synthesis through a combination of adversarial training
and matching the total ground-truth duration. Experimental results show that
our model obtains competitive results while enjoying a much simpler training
pipeline. Audio samples are available online.
- Abstract(参考訳): 並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
しかし、そのようなモデルは一般に外部アライメントモデルを必要とするが、これはデコーダに最適化されていない。
本稿では,入力シーケンスと出力シーケンスのモノトニックなアライメントを学習するための可変長法を提案する。
本手法は,期待の確率過程を最適化するソフトデュレーション機構に基づいている。
この微分可能な持続時間法を用いて、直接テキストから波形TSモデルを導入し、ニューラルヴォコーディングを行う代わりに生音声を出力として生成する。
本モデルでは,高忠実度音声合成を,対角的学習と総接地時間との整合により学習する。
実験の結果,より簡単なトレーニングパイプラインを楽しめながら,競争結果を得ることができた。
オーディオサンプルはオンラインで入手できる。
関連論文リスト
- High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech [7.476901945542385]
本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。
LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
論文 参考訳(メタデータ) (2022-03-31T07:25:11Z) - Low-Latency Incremental Text-to-Speech Synthesis with Distilled Context
Prediction Network [41.4599368523939]
軽量モデルを用いて、観測されていない将来の文脈を直接予測するインクリメンタルTS法を提案する。
実験結果から,提案手法は合成音声の質に匹敵する10倍の時間を要することがわかった。
論文 参考訳(メタデータ) (2021-09-22T13:29:10Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - End-to-End Text-to-Speech using Latent Duration based on VQ-VAE [48.151894340550385]
テキスト音声合成(TTS)におけるロバストかつ効率的なアライメントの実現の鍵となる明示的持続時間モデリング
本稿では,時間長をTSの離散潜在変数として組み込んだ明示的持続時間モデルを用いた新しいTSフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:34:49Z) - End-to-End Adversarial Text-to-Speech [33.01223309795122]
正規化されたテキストや音素から音声をエンドツーエンドで合成することを学ぶ。
提案するジェネレータはフィードフォワードであり,トレーニングと推論の両方に効率的である。
敵対的フィードバックと予測損失を組み合わせた高忠実度オーディオを学習する。
論文 参考訳(メタデータ) (2020-06-05T17:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。