論文の概要: Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2312.03491v1
- Date: Wed, 6 Dec 2023 13:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 14:44:13.459021
- Title: Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis
- Title(参考訳): Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis (英語)
- Authors: Zehua Chen, Guande He, Kaiwen Zheng, Xu Tan, Jun Zhu
- Abstract要約: Bridge-TTSは、確立された拡散に基づくTS法において、ノイズの多いガウスをクリーンで決定論的に置き換える新しいTSシステムである。
具体的には、テキスト入力から得られた潜伏表現を前もって利用し、それと地上トルス・メル・スペクトログラムの間に完全にトラクタブルなシュロディンガーブリッジを構築する。
- 参考スコア(独自算出の注目度): 35.16243386407448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In text-to-speech (TTS) synthesis, diffusion models have achieved promising
generation quality. However, because of the pre-defined data-to-noise diffusion
process, their prior distribution is restricted to a noisy representation,
which provides little information of the generation target. In this work, we
present a novel TTS system, Bridge-TTS, making the first attempt to substitute
the noisy Gaussian prior in established diffusion-based TTS methods with a
clean and deterministic one, which provides strong structural information of
the target. Specifically, we leverage the latent representation obtained from
text input as our prior, and build a fully tractable Schrodinger bridge between
it and the ground-truth mel-spectrogram, leading to a data-to-data process.
Moreover, the tractability and flexibility of our formulation allow us to
empirically study the design spaces such as noise schedules, as well as to
develop stochastic and deterministic samplers. Experimental results on the
LJ-Speech dataset illustrate the effectiveness of our method in terms of both
synthesis quality and sampling efficiency, significantly outperforming our
diffusion counterpart Grad-TTS in 50-step/1000-step synthesis and strong fast
TTS models in few-step scenarios. Project page: https://bridge-tts.github.io/
- Abstract(参考訳): テキスト音声合成(TTS)において、拡散モデルは有望な生成品質を達成した。
しかし, 事前定義されたデータ-雑音拡散プロセスにより, 先行分布は雑音表現に制限され, 生成対象に関する情報はほとんど得られない。
本研究では,新しいTSシステムであるBridge-TTSを提案し,従来の拡散型TS法ではノイズの多いガウシアンをクリーンかつ決定論的に置き換える試みを行い,ターゲットの構造情報を強く提供した。
具体的には、テキスト入力から得られた潜在表現を先行して活用し、それと接地メルスペクトログラムの間に完全に扱いやすいシュロディンガーブリッジを構築し、データからデータへのプロセスへと繋がる。
さらに, 定式化の難易度と柔軟性により, 設計空間, 騒音スケジュール, および確率的, 決定論的サンプラーの開発を実証的に行うことができる。
lj-speechデータセットの実験結果は,合成品質とサンプリング効率の両面において,50ステップ/1000ステップ合成における拡散対応するgrad-ttsと,少数のシナリオにおける強力な高速ttsモデルとを有意に上回っている。
プロジェクトページ: https://bridge-tts.github.io/
関連論文リスト
- Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - CM-TTS: Enhancing Real Time Text-to-Speech Synthesis Efficiency through Weighted Samplers and Consistency Models [30.68516200579894]
一貫性モデル(CM)に基づく新しいアーキテクチャであるCM-TTSを紹介する。
CM-TTSは、対戦訓練や事前訓練されたモデル依存なしに、より少ないステップで高品質な音声合成を実現する。
包括的評価により検証した実時間メル-クログラム生成一貫性モデルを提案する。
論文 参考訳(メタデータ) (2024-03-31T05:38:08Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to
Speech [37.29193613404699]
DDPMは高忠実度サンプルを生成する能力が強いため、TTS合成において出現している。
従来の研究では、推論ステップの数を最小化しながら、サンプル品質のコストを犠牲にすることで、推論速度の高速化が検討されてきた。
本稿では,既存のTSモデルの出力スペクトルを改良する軽量拡散モデルResGradを提案する。
論文 参考訳(メタデータ) (2022-12-30T02:31:35Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising
Diffusion GANs [39.388599580262614]
DiffGAN-TTS(DiffGAN-TTS, DDPM-based text-to-speech)モデルを導入し, 高忠実度音声合成を実現する。
実験の結果,DiffGAN-TTSは1段階のみの高合成性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-01-28T07:41:10Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - Diff-TTS: A Denoising Diffusion Model for Text-to-Speech [14.231478930274058]
自然で効率的な音声合成を実現する新しい非自己回帰型TTSモデルであるDiff-TTSを提案する。
Diff-TTSは、拡散時間ステップを通じてノイズ信号をメル・スペクトログラムに変換するデノイジング拡散フレームワークを利用しています。
Diff-TTSが1つのNVIDIA 2080Ti GPUでリアルタイムよりも28倍高速に生成されることを検証する。
論文 参考訳(メタデータ) (2021-04-03T13:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。