論文の概要: MultiVerse: Efficient and Expressive Zero-Shot Multi-Task Text-to-Speech
- arxiv url: http://arxiv.org/abs/2410.03192v1
- Date: Fri, 4 Oct 2024 07:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 03:04:25.002834
- Title: MultiVerse: Efficient and Expressive Zero-Shot Multi-Task Text-to-Speech
- Title(参考訳): MultiVerse: 効率的かつ表現力のあるマルチタスクテキスト音声合成
- Authors: Taejun Bak, Youngsik Eom, SeungJae Choi, Young-Sun Joo,
- Abstract要約: MultiVerseは、ゼロショットのマルチタスクTSシステムであり、ゼロショットおよびクロスランガル条件下でTSや音声スタイルの転送を行うことができる。
我々は、フィルタ関連およびソース関連表現をモデル化するためのプロンプトを利用して、ソースフィルタ理論に基づくアンタングルメントを用いる。
我々の新しい韻律モデリング技術は、与えられた韻律と高い韻律的類似性を持つ音声を生成するMultiVerseの能力に大きく貢献する。
- 参考スコア(独自算出の注目度): 7.038489351956803
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-speech (TTS) systems that scale up the amount of training data have achieved significant improvements in zero-shot speech synthesis. However, these systems have certain limitations: they require a large amount of training data, which increases costs, and often overlook prosody similarity. To address these issues, we propose MultiVerse, a zero-shot multi-task TTS system that is able to perform TTS or speech style transfer in zero-shot and cross-lingual conditions. MultiVerse requires much less training data than traditional data-driven approaches. To ensure zero-shot performance even with limited data, we leverage source-filter theory-based disentanglement, utilizing the prompt for modeling filter-related and source-related representations. Additionally, to further enhance prosody similarity, we adopt a prosody modeling approach combining prompt-based autoregressive and non-autoregressive methods. Evaluations demonstrate the remarkable zero-shot multi-task TTS performance of MultiVerse and show that MultiVerse not only achieves zero-shot TTS performance comparable to data-driven TTS systems with much less data, but also significantly outperforms other zero-shot TTS systems trained with the same small amount of data. In particular, our novel prosody modeling technique significantly contributes to MultiVerse's ability to generate speech with high prosody similarity to the given prompts. Our samples are available at https://nc-ai.github.io/speech/publications/multiverse/index.html
- Abstract(参考訳): 訓練データ量をスケールアップするテキスト音声合成システム(TTS)は、ゼロショット音声合成において大幅に改善されている。
しかし、これらのシステムには一定の制限があり、大量のトレーニングデータが必要であり、コストが増大し、しばしばプロソディの類似性を見落としている。
これらの問題に対処するために、ゼロショットマルチタスクTSシステムであるMultiVerseを提案する。
MultiVerseは、従来のデータ駆動型アプローチよりも、トレーニングデータが少ない。
限られたデータであってもゼロショット性能を確保するために,フィルタ関連およびソース関連表現をモデル化するためのプロンプトを利用して,ソースフィルタ理論に基づくアンタングルメントを利用する。
さらに,プロソディの類似性をさらに向上するため,プロソディ・モデリング手法として,プロソディ・ベースの自己回帰的手法と非自己回帰的手法を併用した。
評価の結果,MultiVerse のマルチタスク TTS 性能は,データ量が少ないデータ駆動型 TTS システムに匹敵するゼロショット TTS 性能を達成できるだけでなく,同じデータ量で訓練された他のゼロショット TTS システムよりも大幅に向上することが示された。
特に,提案するプロソディ・モデリング技術は,与えられたプロソディと高いプロソディ類似性を持つ音声を生成するMultiVerseの能力に大きく寄与する。
私たちのサンプルはhttps://nc-ai.github.io/speech/publications/multiverse/index.htmlで公開されています。
関連論文リスト
- Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - SSL-TTS: Leveraging Self-Supervised Embeddings and kNN Retrieval for Zero-Shot Multi-speaker TTS [18.701864254184308]
TTSの効果的な中間表現として,自己教師付き学習(SSL)音声の特徴が出現している。
本研究では、単一話者からの音声の書き起こしに基づいて訓練された軽量で効率的なゼロショットTTSフレームワークであるSSL-TTSを紹介する。
論文 参考訳(メタデータ) (2024-08-20T12:09:58Z) - Leveraging Parameter-Efficient Transfer Learning for Multi-Lingual Text-to-Speech Adaptation [27.78435674869292]
異なる言語は異なる音声システムを持ち、その韻律的特徴が異なるため、テキスト音声モデルの開発は困難である。
本稿では,多言語音声合成のためのTTSアーキテクチャを用いて,アダプタやハイパーネットワークなどのパラメータ効率変換学習(PETL)手法を統合することを提案する。
論文 参考訳(メタデータ) (2024-06-25T03:50:54Z) - DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer [9.032701216955497]
市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。
提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。
トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
論文 参考訳(メタデータ) (2024-06-17T11:25:57Z) - Comparative Analysis of Transfer Learning in Deep Learning
Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset [10.119929769316565]
この論文は、トレーニング時間が少なく、データサンプルが少なく、高品質な音声出力が得られるTSモデルを見つける必要があることの根底にある。
この研究は、徹底的な技術分析を通じて、TTSの最先端のモデル伝達学習能力を評価する。
その後、制約付きデータセットにおけるモデルのパフォーマンスを比較するために、ハンズオンの実験分析を行う。
論文 参考訳(メタデータ) (2023-10-08T03:08:25Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。