論文の概要: Neural HMMs are all you need (for high-quality attention-free TTS)
- arxiv url: http://arxiv.org/abs/2108.13320v1
- Date: Mon, 30 Aug 2021 15:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:15:16.787337
- Title: Neural HMMs are all you need (for high-quality attention-free TTS)
- Title(参考訳): ニューラルなHMMは必要なもの(高品質な注意力のないTS)
- Authors: Shivam Mehta, \'Eva Sz\'ekely, Jonas Beskow, Gustav Eje Henter
- Abstract要約: 古典的かつ現代的なTSのイノベーションを組み合わせて、最良の結果を得る方法について論じる。
最終システムはTacotron 2より小さくてシンプルで、少ないイテレーションで整列し、話すことを学ぶ。
タコトロン2とは異なり、発話速度の制御も容易である。
- 参考スコア(独自算出の注目度): 13.467456334392594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural sequence-to-sequence TTS has demonstrated significantly better output
quality over classical statistical parametric speech synthesis using HMMs.
However, the new paradigm is not probabilistic and the use of non-monotonic
attention both increases training time and introduces "babbling" failure modes
that are unacceptable in production. In this paper, we demonstrate that the old
and new paradigms can be combined to obtain the advantages of both worlds, by
replacing the attention in Tacotron 2 with an autoregressive left-right no-skip
hidden-Markov model defined by a neural network. This leads to an HMM-based
neural TTS model with monotonic alignment, trained to maximise the full
sequence likelihood without approximations. We discuss how to combine
innovations from both classical and contemporary TTS for best results. The
final system is smaller and simpler than Tacotron 2 and learns to align and
speak with fewer iterations, while achieving the same speech naturalness.
Unlike Tacotron 2, it also allows easy control over speaking rate. Audio
examples and code are available at https://shivammehta007.github.io/Neural-HMM/
- Abstract(参考訳): HMMを用いた古典的統計パラメトリック音声合成より,TTSの出力品質は著しく向上した。
しかし、新しいパラダイムは確率的ではなく、非単調な注意がトレーニング時間を増加させ、プロダクションでは受け入れられない"バブリング"障害モードを導入する。
本稿では,タコトロン2の注意をニューラルネットワークで定義した自己回帰的な非スキップ隠れマルコフモデルに置き換えることで,両世界の利点を得るために新旧のパラダイムを組み合わせることができることを実証する。
これにより、モノトニックアライメントを備えたHMMベースのニューラルTSモデルが実現され、近似なしで全シーケンス確率を最大化するように訓練される。
我々は,古典的および現代的ttsのイノベーションを最高の結果に結びつける方法について論じる。
最終システムはTacotron 2よりも小さくてシンプルで、同じ言語自然性を実現しつつ、より少ないイテレーションで調整と話し方を学ぶ。
タコトロン2とは異なり、発話速度の制御も容易である。
オーディオサンプルとコードはhttps://shivammehta007.github.io/neural-hmm/で入手できる。
関連論文リスト
- TacoLM: GaTed Attention Equipped Codec Language Model are Efficient Zero-Shot Text to Speech Synthesizers [8.485772660435464]
我々は,新しいニューラルLM,すなわちTacoLMを導入する。
TacoLMは、トレーニングと推論効率を改善するために、ゲートアテンションメカニズムを導入している。
TacoLMは、VALL-Eと比較して、単語エラー率、話者類似度、平均評価スコアが90%少なく、5.2倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-06-22T06:39:52Z) - EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech [4.91849983180793]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。
私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。
実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文 参考訳(メタデータ) (2024-03-13T01:27:57Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - OverFlow: Putting flows on top of neural transducers for better TTS [9.346907121576258]
ニューラルHMMは、最近テキストから音声へのシーケンスモデリングのために提案されたニューラルトランスデューサの一種である。
本稿では,ニューラルHMM TTSと正規化流を組み合わせた音声音響の非ガウス分布を記述する。
論文 参考訳(メタデータ) (2022-11-13T12:53:05Z) - Efficiently Trained Low-Resource Mongolian Text-to-Speech System Based
On FullConv-TTS [0.0]
本稿では,RNN成分(繰り返し単位)を用いない深層畳み込みニューラルネットワークに基づく音声合成システムを提案する。
同時に、時間ワープ、周波数マスク、時間マスクといった一連のデータ拡張手法により、モデルの汎用性とロバスト性を向上する。
最後に, CNN コンポーネントのみを用いた TTS モデルは,Tacotron などの古典的 TTS モデルと比較してトレーニング時間を短縮できることを示した。
論文 参考訳(メタデータ) (2022-10-24T14:18:43Z) - Introducing the Hidden Neural Markov Chain framework [7.85426761612795]
本稿では,ニューラルモデルの新しいファミリーであるHNMC(Hidden Neural Markov Chain)フレームワークを提案する。
クラシックなHNMC、HNMC2、HNMC-CNの3つのモデルを提案します。
この新しいニューラルネットワークシーケンシャルフレームワークの可能性を示すもので、新しいモデルへの道を開き、最終的には一般的なBiLSTMやBiGRUと競合する可能性がある。
論文 参考訳(メタデータ) (2021-02-17T20:13:45Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Investigation of learning abilities on linguistic features in
sequence-to-sequence text-to-speech synthesis [48.151894340550385]
ニューラルシークエンス・ツー・シークエンス・テキスト・トゥ・音声合成(TTS)は、テキストや音素のような単純な言語的特徴から直接高品質な音声を生成することができる。
ニューラルシークエンス・ツー・シークエンス TTS が日本語と英語でどのように機能するかを考察する。
論文 参考訳(メタデータ) (2020-05-20T23:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。