論文の概要: Matcha-TTS: A fast TTS architecture with conditional flow matching
- arxiv url: http://arxiv.org/abs/2309.03199v2
- Date: Tue, 9 Jan 2024 21:02:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 17:19:11.584932
- Title: Matcha-TTS: A fast TTS architecture with conditional flow matching
- Title(参考訳): Matcha-TTS:条件付きフローマッチングを用いた高速TSアーキテクチャ
- Authors: Shivam Mehta, Ruibo Tu, Jonas Beskow, \'Eva Sz\'ekely, Gustav Eje
Henter
- Abstract要約: 高速TTS音響モデリングのための新しいエンコーダデコーダアーキテクチャであるMatcha-TTSを紹介する。
最適輸送条件フローマッチング(OT-CFM)を用いて訓練する。
これにより、スコアマッチングを用いてトレーニングされたモデルよりも少ない合成ステップで出力品質の高いODEベースのデコーダが得られる。
- 参考スコア(独自算出の注目度): 13.973500393046235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Matcha-TTS, a new encoder-decoder architecture for speedy TTS
acoustic modelling, trained using optimal-transport conditional flow matching
(OT-CFM). This yields an ODE-based decoder capable of high output quality in
fewer synthesis steps than models trained using score matching. Careful design
choices additionally ensure each synthesis step is fast to run. The method is
probabilistic, non-autoregressive, and learns to speak from scratch without
external alignments. Compared to strong pre-trained baseline models, the
Matcha-TTS system has the smallest memory footprint, rivals the speed of the
fastest models on long utterances, and attains the highest mean opinion score
in a listening test. Please see https://shivammehta25.github.io/Matcha-TTS/ for
audio examples, code, and pre-trained models.
- Abstract(参考訳): 高速なTTS音響モデリングのための新しいエンコーダデコーダアーキテクチャであるMatcha-TTSを導入し,OT-CFMを用いて学習した。
これにより、スコアマッチングを用いてトレーニングされたモデルよりも少ない合成ステップで出力品質の高いODEベースのデコーダが得られる。
注意深い設計選択は、各合成ステップが高速に実行されることを保証します。
この方法は確率的であり、非自己回帰的であり、外的アライメントなしでゼロから話すことを学ぶ。
強い事前学習ベースラインモデルと比較して、Matcha-TTSシステムはメモリフットプリントが最小であり、長い発話で最速モデルの速度に匹敵し、リスニングテストで最高評価スコアを得る。
オーディオサンプル、コード、事前訓練されたモデルについては、https://shivammehta25.github.io/Matcha-TTS/を参照してください。
関連論文リスト
- EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech [4.91849983180793]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。
私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。
実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文 参考訳(メタデータ) (2024-03-13T01:27:57Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural
TTS [52.51848317549301]
高速なTTS合成のためのマルチステージマルチコードブック(MSMC)手法を提案する。
ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,音声訓練データのメルスペクトルを符号化する。
合成において、ニューラルネットワークは予測されたSMCRを最終的な音声波形に変換する。
論文 参考訳(メタデータ) (2022-09-22T09:43:17Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - ESPnet2-TTS: Extending the Edge of TTS Research [62.92178873052468]
ESPnet2-TTSは、E2E-TTS(E2E-TTS)ツールキットである。
新機能としては、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなどがある。
論文 参考訳(メタデータ) (2021-10-15T03:27:45Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - Investigation of learning abilities on linguistic features in
sequence-to-sequence text-to-speech synthesis [48.151894340550385]
ニューラルシークエンス・ツー・シークエンス・テキスト・トゥ・音声合成(TTS)は、テキストや音素のような単純な言語的特徴から直接高品質な音声を生成することができる。
ニューラルシークエンス・ツー・シークエンス TTS が日本語と英語でどのように機能するかを考察する。
論文 参考訳(メタデータ) (2020-05-20T23:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。