論文の概要: NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers
- arxiv url: http://arxiv.org/abs/2304.09116v1
- Date: Tue, 18 Apr 2023 16:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 13:54:09.725414
- Title: NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers
- Title(参考訳): naturalspeech 2: 潜在拡散モデルは自然音声とゼロショット音声と歌唱シンセサイザーである
- Authors: Kai Shen, Zeqian Ju, Xu Tan, Yanqing Liu, Yichong Leng, Lei He, Tao
Qin, Sheng Zhao, Jiang Bian
- Abstract要約: 残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
- 参考スコア(独自算出の注目度): 90.83782600932567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling text-to-speech (TTS) to large-scale, multi-speaker, and in-the-wild
datasets is important to capture the diversity in human speech such as speaker
identities, prosodies, and styles (e.g., singing). Current large TTS systems
usually quantize speech into discrete tokens and use language models to
generate these tokens one by one, which suffer from unstable prosody, word
skipping/repeating issue, and poor voice quality. In this paper, we develop
NaturalSpeech 2, a TTS system that leverages a neural audio codec with residual
vector quantizers to get the quantized latent vectors and uses a diffusion
model to generate these latent vectors conditioned on text input. To enhance
the zero-shot capability that is important to achieve diverse speech synthesis,
we design a speech prompting mechanism to facilitate in-context learning in the
diffusion model and the duration/pitch predictor. We scale NaturalSpeech 2 to
large-scale datasets with 44K hours of speech and singing data and evaluate its
voice quality on unseen speakers. NaturalSpeech 2 outperforms previous TTS
systems by a large margin in terms of prosody/timbre similarity, robustness,
and voice quality in a zero-shot setting, and performs novel zero-shot singing
synthesis with only a speech prompt. Audio samples are available at
https://speechresearch.github.io/naturalspeech2.
- Abstract(参考訳): 音声合成(TTS)を大規模、複数話者、および単語内データセットに拡張することは、話者のアイデンティティ、韻律、スタイル(例えば歌)などの人間の発話の多様性を捉えるために重要である。
現在の大規模なTSSシステムは、音声を離散トークンに量子化し、言語モデルを用いて、不安定な韻律、単語のスキップ/繰り返しの問題、低音質に悩まされているトークンを1つずつ生成する。
本稿では, 量子化された潜在ベクトルを得るために, 残留ベクトル量子化器を用いたニューラルオーディオコーデックを活用したttsシステムであるnaturalspeech 2 を開発し, 拡散モデルを用いてこれらの潜在ベクトルをテキスト入力に基づいて生成する。
多様な音声合成を実現するために重要となるゼロショット機能を強化するために,拡散モデルと継続時間/ピッチ予測器における文脈内学習を容易にする音声プロンプト機構を設計する。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,その音声品質を評価する。
naturalspeech 2は、ゼロショット設定において、韻律/音色類似性、頑健性、声質の点で、従来のttsシステムを大きく上回り、音声プロンプトだけで新規なゼロショット歌唱合成を行う。
オーディオサンプルはhttps://speechresearch.github.io/naturalspeech2で入手できる。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models [127.47252277138708]
ゼロショット方式で自然な音声を生成するために,分解拡散モデルを備えたTSSシステムであるNaturalSpeech 3を提案する。
具体的には、分解ベクトル量子化(FVQ)を用いて、音声波形をコンテンツ、韻律、音色、音響的詳細の部分空間に分解する。
実験により、NaturalSpeech 3は、品質、類似性、韻律、知性において最先端のTSSシステムより優れていることが示された。
論文 参考訳(メタデータ) (2024-03-05T16:35:25Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。