論文の概要: MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer
- arxiv url: http://arxiv.org/abs/2409.00750v3
- Date: Sun, 20 Oct 2024 14:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:14:02.797945
- Title: MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer
- Title(参考訳): MaskGCT: Masked Generative Codec Transformer によるゼロショットテキスト音声合成
- Authors: Yuancheng Wang, Haoyue Zhan, Liwei Liu, Ruihong Zeng, Haotian Guo, Jiachen Zheng, Qiang Zhang, Xueyao Zhang, Shunsi Zhang, Zhizheng Wu,
- Abstract要約: Masked Generative Codec Transformer (MaskGCT) は完全に非自己回帰型テキスト音声変換モデルである。
MaskGCTは、テキストと音声の監督、および電話レベルの持続時間予測の明示的なアライメント情報を必要としない。
100K時間以内の実験では、MaskGCTが現在の最先端のゼロショットTSシステムより優れていたことが示されている。
- 参考スコア(独自算出の注目度): 9.100416536151869
- License:
- Abstract: The recent large-scale text-to-speech (TTS) systems are usually grouped as autoregressive and non-autoregressive systems. The autoregressive systems implicitly model duration but exhibit certain deficiencies in robustness and lack of duration controllability. Non-autoregressive systems require explicit alignment information between text and speech during training and predict durations for linguistic units (e.g. phone), which may compromise their naturalness. In this paper, we introduce Masked Generative Codec Transformer (MaskGCT), a fully non-autoregressive TTS model that eliminates the need for explicit alignment information between text and speech supervision, as well as phone-level duration prediction. MaskGCT is a two-stage model: in the first stage, the model uses text to predict semantic tokens extracted from a speech self-supervised learning (SSL) model, and in the second stage, the model predicts acoustic tokens conditioned on these semantic tokens. MaskGCT follows the mask-and-predict learning paradigm. During training, MaskGCT learns to predict masked semantic or acoustic tokens based on given conditions and prompts. During inference, the model generates tokens of a specified length in a parallel manner. Experiments with 100K hours of in-the-wild speech demonstrate that MaskGCT outperforms the current state-of-the-art zero-shot TTS systems in terms of quality, similarity, and intelligibility. Audio samples are available at https://maskgct.github.io/. We release our code and model checkpoints at https://github.com/open-mmlab/Amphion/blob/main/models/tts/maskgct.
- Abstract(参考訳): 最近の大規模音声合成システム(TTS)は通常、自己回帰システムと非自己回帰システムに分類される。
自己回帰システムは持続期間を暗黙的にモデル化するが、頑健さと持続時間制御性の欠如がある種の欠陥を示す。
非自己回帰システムは、訓練中にテキストと音声の明確なアライメント情報を必要とし、言語単位(例えば電話)の予測期間は自然性を損なう可能性がある。
本稿では,テキストと音声の監督の明示的なアライメント情報や電話レベルの持続時間予測を不要とした,完全非自己回帰型TSSモデルであるMasked Generative Codec Transformer(MaskGCT)を紹介する。
MaskGCTは2段階モデルであり、第1段階ではテキストを使用して、音声自己教師型学習(SSL)モデルから抽出された意味トークンを予測し、第2段階では、これらの意味トークンに条件付けられた音響トークンを予測する。
MaskGCTはマスク・アンド・予測学習パラダイムに従っている。
トレーニング中、MaskGCTは与えられた条件とプロンプトに基づいて、マスク付きセマンティックトークンやアコースティックトークンを予測することを学ぶ。
推論中、モデルは指定された長さのトークンを並列に生成する。
100K時間以内の実験では、MaskGCTは、現在の最先端のゼロショットTSシステムよりも品質、類似性、知性において優れていた。
オーディオサンプルはhttps://maskgct.github.io/.com/で入手できる。
コードとモデルチェックポイントはhttps://github.com/open-mmlab/Amphion/blob/main/models/tts/maskgctで公開しています。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment [19.48653924804823]
大規模言語モデル (LLM) に基づくテキスト音声合成システム (TTS) は, 大規模音声データセットの処理や, 新しい話者に対する自然な音声生成において, 顕著な能力を示した。
しかし、LLMベースのTSモデルは、生成した出力が繰り返し単語、欠落した単語、不一致した音声を含むことができるため、堅牢ではない。
エンコーダ・デコーダ・トランスフォーマーモデルを用いてこれらの課題を検証し、与えられたテキストに対する音声トークンの予測訓練において、そのようなモデルにおける特定のクロスアテンションヘッドが暗黙的にテキストと音声アライメントを学習することを確認する。
論文 参考訳(メタデータ) (2024-06-25T22:18:52Z) - DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer [9.032701216955497]
市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。
提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。
トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
論文 参考訳(メタデータ) (2024-06-17T11:25:57Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。