論文の概要: DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2406.11427v1
- Date: Mon, 17 Jun 2024 11:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 15:11:33.139032
- Title: DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer
- Title(参考訳): DiTTo-TTS:拡散変換器を用いた高速かつスケーラブルなゼロショットテキスト音声合成
- Authors: Keon Lee, Dong Won Kim, Jaehyeon Kim, Jaewoong Cho,
- Abstract要約: 市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。
提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。
トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
- 参考スコア(独自算出の注目度): 9.032701216955497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale diffusion models have shown outstanding generative abilities across multiple modalities including images, videos, and audio. However, text-to-speech (TTS) systems typically involve domain-specific modeling factors (e.g., phonemes and phoneme-level durations) to ensure precise temporal alignments between text and speech, which hinders the efficiency and scalability of diffusion models for TTS. In this work, we present an efficient and scalable Diffusion Transformer (DiT) that utilizes off-the-shelf pre-trained text and speech encoders. Our approach addresses the challenge of text-speech alignment via cross-attention mechanisms with the prediction of the total length of speech representations. To achieve this, we enhance the DiT architecture to suit TTS and improve the alignment by incorporating semantic guidance into the latent space of speech. We scale the training dataset and the model size to 82K hours and 790M parameters, respectively. Our extensive experiments demonstrate that the large-scale diffusion model for TTS without domain-specific modeling not only simplifies the training pipeline but also yields superior or comparable zero-shot performance to state-of-the-art TTS models in terms of naturalness, intelligibility, and speaker similarity. Our speech samples are available at https://ditto-tts.github.io.
- Abstract(参考訳): 大規模な拡散モデルでは、画像、ビデオ、オーディオを含む複数のモードで優れた生成能力を示す。
しかし、テキスト音声(TTS)システムは通常、テキストと音声の正確な時間的アライメントを確保するために、ドメイン固有のモデリング要素(音素レベル、音素レベル、音素レベル)を伴い、TSの拡散モデルの効率とスケーラビリティを阻害する。
本研究では,市販のテキストと音声エンコーダを利用したディフュージョントランスフォーマ(DiT)を提案する。
提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。
そこで本研究では,音声の潜在空間にセマンティックガイダンスを組み込むことにより,TTSに適合するDiTアーキテクチャを強化し,アライメントを改善する。
トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
広範にわたる実験により、ドメイン固有モデリングのないTSの大規模拡散モデルは、訓練パイプラインを単純化するだけでなく、自然性、知性、話者類似性の観点から、最先端のTSモデルに優れた、あるいは同等のゼロショット性能をもたらすことが示された。
私たちの音声サンプルはhttps://ditto-tts.github.io.comで公開されています。
関連論文リスト
- Efficient Scaling of Diffusion Transformers for Text-to-Image Generation [105.7324182618969]
各種拡散変換器(DiT)のテキスト・画像生成におけるスケーリング特性について,広範かつ厳密なアブレーションにより検討した。
We found that U-ViT, a pure self-attention based DiT model provides a simple design and scales using cross-attention based DiT variants。
論文 参考訳(メタデータ) (2024-12-16T22:59:26Z) - Beyond Oversmoothing: Evaluating DDPM and MSE for Scalable Speech Synthesis in ASR [13.307889110301502]
ASRモデルのトレーニングに使用する場合, DPM(Denoising Diffusion Probabilistic Models)とTSのMean Squared Error(MSE)ベースのモデルを比較した。
与えられたモデルサイズに対して、DDPMはMSEモデルよりも多くのデータとより多様な話者の集合をうまく利用することができる。
実話と合成音声のWERの比率(1.46)は最も高いが,大きなギャップが残っていることも確認できた。
論文 参考訳(メタデータ) (2024-10-16T06:35:56Z) - DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis [12.310318928818546]
DMOSpeechは, 蒸留拡散に基づくTSモデルであり, 教師モデルと比較して高速な推論と優れた性能を実現する。
我々の総合的な実験は、人間の広範囲な評価によって検証され、自然性、知性、話者の類似性を大幅に向上させながら、推測時間を桁違いに減らした。
本研究は,音声合成と人間の聴覚嗜好を協調する新たな枠組みを,直接的メートル法最適化により確立する。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - EPIC TTS Models: Empirical Pruning Investigations Characterizing
Text-To-Speech Models [26.462819114575172]
この研究は、音声合成における空間的パラダイムを比較する。
音声合成における空間的パラダイムを比較する最初の作品である。
論文 参考訳(メタデータ) (2022-09-22T09:47:25Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。