論文の概要: NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.03100v2
- Date: Wed, 27 Mar 2024 16:14:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 21:54:06.777371
- Title: NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models
- Title(参考訳): NaturalSpeech 3:分解コーデックと拡散モデルを用いたゼロショット音声合成
- Authors: Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao,
- Abstract要約: ゼロショット方式で自然な音声を生成するために,分解拡散モデルを備えたTSSシステムであるNaturalSpeech 3を提案する。
具体的には、分解ベクトル量子化(FVQ)を用いて、音声波形をコンテンツ、韻律、音色、音響的詳細の部分空間に分解する。
実験により、NaturalSpeech 3は、品質、類似性、韻律、知性において最先端のTSSシステムより優れていることが示された。
- 参考スコア(独自算出の注目度): 127.47252277138708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent large-scale text-to-speech (TTS) models have achieved significant progress, they still fall short in speech quality, similarity, and prosody. Considering speech intricately encompasses various attributes (e.g., content, prosody, timbre, and acoustic details) that pose significant challenges for generation, a natural idea is to factorize speech into individual subspaces representing different attributes and generate them individually. Motivated by it, we propose NaturalSpeech 3, a TTS system with novel factorized diffusion models to generate natural speech in a zero-shot way. Specifically, 1) we design a neural codec with factorized vector quantization (FVQ) to disentangle speech waveform into subspaces of content, prosody, timbre, and acoustic details; 2) we propose a factorized diffusion model to generate attributes in each subspace following its corresponding prompt. With this factorization design, NaturalSpeech 3 can effectively and efficiently model intricate speech with disentangled subspaces in a divide-and-conquer way. Experiments show that NaturalSpeech 3 outperforms the state-of-the-art TTS systems on quality, similarity, prosody, and intelligibility, and achieves on-par quality with human recordings. Furthermore, we achieve better performance by scaling to 1B parameters and 200K hours of training data.
- Abstract(参考訳): 最近の大規模音声合成(TTS)モデルは大きな進歩を遂げているが、音声品質、類似性、韻律に乏しい。
音声は、様々な属性(例えば、内容、韻律、音色、音色など)を複雑に包含し、生成に重大な課題を生じさせることを考えると、自然な考え方は、異なる属性を表す個々の部分空間に分解し、個別に生成することである。
そこで本研究では,ゼロショット方式で自然言語を生成するために,新しい因子化拡散モデルを備えたTSSシステムであるNaturalSpeech 3を提案する。
具体的には
1)因子化ベクトル量子化(FVQ)を用いたニューラルコーデックを設計し,音声波形をコンテンツ,韻律,音韻,音響的詳細の部分空間に分解する。
2) 各部分空間の属性を対応するプロンプトに従って生成する因子拡散モデルを提案する。
この因子化設計により、NaturalSpeech 3 は、分割とコンカレントな方法で、非絡み合った部分空間を持つ複雑な音声を効果的に、効率的にモデル化することができる。
実験により、NaturalSpeech 3は、品質、類似性、韻律、知性において最先端のTSSシステムより優れており、人間の録音によるオンパー品質を実現していることが示された。
さらに、1Bパラメータと200K時間のトレーニングデータにスケーリングすることで、より良いパフォーマンスを実現しています。
関連論文リスト
- SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - EfficientSpeech: An On-Device Text to Speech Model [15.118059441365343]
State of the Art (SOTA) Neural Text to Speech (TTS)モデルでは、自然な音声合成音声を生成することができる。
本研究では,ARM CPU上で音声をリアルタイムに合成するEfficientSpeechという,効率的なニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T10:28:41Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - Enhancing audio quality for expressive Neural Text-to-Speech [8.199224915764672]
本稿では,高表現率音声の信号品質を向上させるために,追加データを用いることなく活用できる一連の手法を提案する。
その結果,これらの手法を組み合わせることで,表現力のある有名人声のMUSHRAスコアにおいて,ベースラインシステムと録音との知覚自然さのギャップを39%削減できることが判明した。
論文 参考訳(メタデータ) (2021-08-13T14:32:39Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。