論文の概要: OverFlow: Putting flows on top of neural transducers for better TTS
- arxiv url: http://arxiv.org/abs/2211.06892v2
- Date: Mon, 29 May 2023 14:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 03:05:00.061267
- Title: OverFlow: Putting flows on top of neural transducers for better TTS
- Title(参考訳): OverFlow: より優れたTSのためのニューラルトランスデューサの上にフローを置く
- Authors: Shivam Mehta, Ambika Kirkland, Harm Lameris, Jonas Beskow, \'Eva
Sz\'ekely, Gustav Eje Henter
- Abstract要約: ニューラルHMMは、最近テキストから音声へのシーケンスモデリングのために提案されたニューラルトランスデューサの一種である。
本稿では,ニューラルHMM TTSと正規化流を組み合わせた音声音響の非ガウス分布を記述する。
- 参考スコア(独自算出の注目度): 9.346907121576258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural HMMs are a type of neural transducer recently proposed for
sequence-to-sequence modelling in text-to-speech. They combine the best
features of classic statistical speech synthesis and modern neural TTS,
requiring less data and fewer training updates, and are less prone to gibberish
output caused by neural attention failures. In this paper, we combine neural
HMM TTS with normalising flows for describing the highly non-Gaussian
distribution of speech acoustics. The result is a powerful, fully probabilistic
model of durations and acoustics that can be trained using exact maximum
likelihood. Experiments show that a system based on our proposal needs fewer
updates than comparable methods to produce accurate pronunciations and a
subjective speech quality close to natural speech. Please see
https://shivammehta25.github.io/OverFlow/ for audio examples and code.
- Abstract(参考訳): ニューラルHMMは、最近テキストから音声へのシーケンスモデリングのために提案されたニューラルトランスデューサの一種である。
従来の統計音声合成と現代のニューラルTSの最良の特徴を組み合わせることで、データが少なくなり、トレーニングの更新も少なくなり、ニューラルアテンション障害によるジブベリの出力が低下する。
本稿では,音声音響の非ガウス分布を記述するために,ニューラルhmm ttと正規化流れを組み合わせた。
その結果、時間と音響の強力で完全に確率的なモデルとなり、最大限の精度で訓練することができる。
実験により,本提案に基づくシステムは,自然な音声に近い正確な発音と主観的音声品質を生成するのに匹敵する手法よりも少ない更新を必要とすることが分かった。
オーディオサンプルとコードについては、https://shivammehta25.github.io/OverFlow/を参照してください。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech [4.91849983180793]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。
私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。
実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文 参考訳(メタデータ) (2024-03-13T01:27:57Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low
Resource Languages [15.32264927462068]
そこで本研究では,大容量の非転写音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。
主なアイデアは、歪んだものから切り離されたメル・スペクトログラムを再構築するモデルを事前訓練することである。
低リソース言語シナリオにおける提案手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-03-28T01:26:00Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Efficiently Trained Low-Resource Mongolian Text-to-Speech System Based
On FullConv-TTS [0.0]
本稿では,RNN成分(繰り返し単位)を用いない深層畳み込みニューラルネットワークに基づく音声合成システムを提案する。
同時に、時間ワープ、周波数マスク、時間マスクといった一連のデータ拡張手法により、モデルの汎用性とロバスト性を向上する。
最後に, CNN コンポーネントのみを用いた TTS モデルは,Tacotron などの古典的 TTS モデルと比較してトレーニング時間を短縮できることを示した。
論文 参考訳(メタデータ) (2022-10-24T14:18:43Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Neural HMMs are all you need (for high-quality attention-free TTS) [13.467456334392594]
古典的かつ現代的なTSのイノベーションを組み合わせて、最良の結果を得る方法について論じる。
最終システムはTacotron 2より小さくてシンプルで、少ないイテレーションで整列し、話すことを学ぶ。
タコトロン2とは異なり、発話速度の制御も容易である。
論文 参考訳(メタデータ) (2021-08-30T15:38:00Z) - Investigation of learning abilities on linguistic features in
sequence-to-sequence text-to-speech synthesis [48.151894340550385]
ニューラルシークエンス・ツー・シークエンス・テキスト・トゥ・音声合成(TTS)は、テキストや音素のような単純な言語的特徴から直接高品質な音声を生成することができる。
ニューラルシークエンス・ツー・シークエンス TTS が日本語と英語でどのように機能するかを考察する。
論文 参考訳(メタデータ) (2020-05-20T23:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。