論文の概要: High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models
- arxiv url: http://arxiv.org/abs/2309.15512v1
- Date: Wed, 27 Sep 2023 09:27:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 14:34:02.121916
- Title: High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models
- Title(参考訳): 最小スーパービジョンを用いた高忠実音声合成:全て拡散モデルを用いた
- Authors: Chunyu Qiang, Hao Li, Yixin Tian, Yi Zhao, Ying Zhang, Longbiao Wang,
Jianwu Dang
- Abstract要約: 最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
- 参考スコア(独自算出の注目度): 56.00939852727501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-speech (TTS) methods have shown promising results in voice cloning,
but they require a large number of labeled text-speech pairs.
Minimally-supervised speech synthesis decouples TTS by combining two types of
discrete speech representations(semantic \& acoustic) and using two
sequence-to-sequence tasks to enable training with minimal supervision.
However, existing methods suffer from information redundancy and dimension
explosion in semantic representation, and high-frequency waveform distortion in
discrete acoustic representation. Autoregressive frameworks exhibit typical
instability and uncontrollability issues. And non-autoregressive frameworks
suffer from prosodic averaging caused by duration prediction models. To address
these issues, we propose a minimally-supervised high-fidelity speech synthesis
method, where all modules are constructed based on the diffusion models. The
non-autoregressive framework enhances controllability, and the duration
diffusion model enables diversified prosodic expression. Contrastive
Token-Acoustic Pretraining (CTAP) is used as an intermediate semantic
representation to solve the problems of information redundancy and dimension
explosion in existing semantic coding methods. Mel-spectrogram is used as the
acoustic representation. Both semantic and acoustic representations are
predicted by continuous variable regression tasks to solve the problem of
high-frequency fine-grained waveform distortion. Experimental results show that
our proposed method outperforms the baseline method. We provide audio samples
on our website.
- Abstract(参考訳): Text-to-Speech (TTS) 法は音声のクローニングにおいて有望な結果を示しているが,多数のラベル付き音声ペアが必要である。
最小教師付き音声合成は、2種類の離散音声表現(semantic \& acoustic)と2つのシーケンス間タスクを組み合わせてttを分離し、最小限の監督でトレーニングを可能にする。
しかし,既存手法では意味表現における情報冗長性と次元の爆発,離散音響表現における高周波波形歪みに悩まされている。
自動回帰フレームワークは典型的な不安定性と制御不能な問題を示す。
そして、非自己回帰フレームワークは、期間予測モデルによる韻律平均化に悩まされる。
これらの問題に対処するために,拡散モデルに基づいて全モジュールを構築できる最小教師付き高忠実音声合成法を提案する。
非自己回帰フレームワークは制御性を高め、持続拡散モデルは多角的韻律表現を可能にする。
既存の意味符号化手法における情報冗長性と次元爆発の問題を解くために,CTAP(Contrastive Token-Acoustic Pretraining)が中間意味表現として使用される。
メルスペクトログラムは音響表現として用いられる。
セマンティクスと音響表現は、連続変数回帰タスクによって予測され、高周波微細波形歪みの問題を解決する。
実験の結果,提案手法はベースライン法よりも優れていた。
音声サンプルは私たちのウェブサイトで提供します。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。