論文の概要: StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion
and Adversarial Training with Large Speech Language Models
- arxiv url: http://arxiv.org/abs/2306.07691v1
- Date: Tue, 13 Jun 2023 11:04:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 14:00:11.480340
- Title: StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion
and Adversarial Training with Large Speech Language Models
- Title(参考訳): StyleTTS 2: 大規模言語モデルを用いた対話学習とスタイル拡散による人間レベルテキスト音声へのアプローチ
- Authors: Yinghao Aaron Li, Cong Han, Vinay S. Raghavan, Gavin Mischler, Nima
Mesgarani
- Abstract要約: StyleTTS 2は、大きな音声言語モデル(SLM)によるスタイル拡散と対角訓練を活用して、人間レベルのTS合成を実現するテキスト音声合成(TTS)モデルである。
StyleTTS 2は、単一話者のLJSpeechデータセット上の人間の記録を上回り、ネイティブ英語話者によって判断されるマルチ話者のVCTKデータセットにマッチする。
この研究は、単一話者と複数話者のデータセット上で初めての人間レベルのTSを実現し、大きなSLMを用いたスタイル拡散と対角訓練の可能性を示した。
- 参考スコア(独自算出の注目度): 18.343987355500648
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present StyleTTS 2, a text-to-speech (TTS) model that
leverages style diffusion and adversarial training with large speech language
models (SLMs) to achieve human-level TTS synthesis. StyleTTS 2 differs from its
predecessor by modeling styles as a latent random variable through diffusion
models to generate the most suitable style for the text without requiring
reference speech, achieving efficient latent diffusion while benefiting from
the diverse speech synthesis offered by diffusion models. Furthermore, we
employ large pre-trained SLMs, such as WavLM, as discriminators with our novel
differentiable duration modeling for end-to-end training, resulting in improved
speech naturalness. StyleTTS 2 surpasses human recordings on the single-speaker
LJSpeech dataset and matches it on the multispeaker VCTK dataset as judged by
native English speakers. Moreover, when trained on the LibriTTS dataset, our
model outperforms previous publicly available models for zero-shot speaker
adaptation. This work achieves the first human-level TTS on both single and
multispeaker datasets, showcasing the potential of style diffusion and
adversarial training with large SLMs. The audio demos and source code are
available at https://styletts2.github.io/.
- Abstract(参考訳): 本稿では,大規模な音声言語モデル(SLM)を用いたスタイル拡散と対角訓練を利用して,人レベルのTS合成を実現するテキスト音声合成(TTS)モデルであるStyleTTS 2を提案する。
styletts 2は、スタイルを拡散モデルを通じて潜在確率変数としてモデル化し、参照音声を必要とせずにテキストに最適なスタイルを生成し、拡散モデルが提供する多様な音声合成の恩恵を受けながら効率的な潜在拡散を実現する。
さらに、WavLMのような大規模事前学習SLMを差別化要因として使用し、エンドツーエンドトレーニングのための微分可能な時間モデルを作成し、音声の自然性を向上させる。
StyleTTS 2は、単一話者のLJSpeechデータセット上の人間の記録を上回り、ネイティブ英語話者によって判断されるマルチ話者のVCTKデータセットにマッチする。
さらに,LibriTTSデータセットを用いたトレーニングでは,従来のゼロショット話者適応モデルよりも優れていた。
この研究は、単一話者と複数話者のデータセット上で初めての人間レベルのTSを実現し、大きなSLMを用いたスタイル拡散と対角訓練の可能性を示した。
オーディオデモとソースコードはhttps://styletts2.github.io/で入手できる。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer [9.032701216955497]
市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。
提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。
トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
論文 参考訳(メタデータ) (2024-06-17T11:25:57Z) - Cross-lingual Knowledge Distillation via Flow-based Voice Conversion for
Robust Polyglot Text-To-Speech [6.243356997302935]
本稿では、上流音声変換(VC)モデルと下流音声合成(TTS)モデルを含む、言語間音声合成のためのフレームワークを提案する。
最初の2段階では、VCモデルを用いてターゲット話者の発話をターゲット話者の声に変換する。
第3段階では、変換されたデータは、対象言語における記録からの言語的特徴や持続時間と組み合わせられ、単一話者音響モデルの訓練に使用される。
論文 参考訳(メタデータ) (2023-09-15T09:03:14Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - ArmanTTS single-speaker Persian dataset [2.7836084563851284]
本稿では,単一話者データセットArmanTTSを紹介する。
ArmanTTSはペルシア語のテキスト音声変換モデルを教えるために必要な標準を満たしていることを示す。
また,Tacotron 2 と HiFi GAN を組み合わせて,音素を入力として受信可能なモデルの設計を行い,その出力を対応する音声とする。
論文 参考訳(メタデータ) (2023-04-07T10:52:55Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Referee: Towards reference-free cross-speaker style transfer with
low-quality data for expressive speech synthesis [39.730034713382736]
テキスト・トゥ・スピーチ (TTS) におけるクロス・スピーカー・スタイル・トランスファー (CSST) は、ターゲット話者の音声における合成音声への発話スタイルの転送を目的としている。
これは、低品質データをフル活用してテキストから話し方を学ぶ、表現型TSのための堅牢な参照不要なCSSTアプローチであるRefereeを提示する。
論文 参考訳(メタデータ) (2021-09-08T05:39:34Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。