論文の概要: Towards Lightweight and Stable Zero-shot TTS with Self-distilled Representation Disentanglement
- arxiv url: http://arxiv.org/abs/2501.08566v1
- Date: Wed, 15 Jan 2025 04:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:51:37.159858
- Title: Towards Lightweight and Stable Zero-shot TTS with Self-distilled Representation Disentanglement
- Title(参考訳): 自己拡散表現による軽量・安定ゼロショットTSの実現に向けて
- Authors: Qianniu Chen, Xiaoyang Hao, Bowen Li, Yue Liu, Li Lu,
- Abstract要約: 軽量で安定なテキスト音声合成システム(TTS)を提案する。
本稿では,音源音声から言語内容や話者属性を効果的にモデル化する新しいTSアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 17.020173869112163
- License:
- Abstract: Zero-shot Text-To-Speech (TTS) synthesis shows great promise for personalized voice customization through voice cloning. However, current methods for achieving zero-shot TTS heavily rely on large model scales and extensive training datasets to ensure satisfactory performance and generalizability across various speakers. This raises concerns regarding both deployment costs and data security. In this paper, we present a lightweight and stable zero-shot TTS system. We introduce a novel TTS architecture designed to effectively model linguistic content and various speaker attributes from source speech and prompt speech, respectively. Furthermore, we present a two-stage self-distillation framework that constructs parallel data pairs for effectively disentangling linguistic content and speakers from the perspective of training data. Extensive experiments show that our system exhibits excellent performance and superior stability on the zero-shot TTS tasks. Moreover, it shows markedly superior computational efficiency, with RTFs of 0.13 and 0.012 on the CPU and GPU, respectively.
- Abstract(参考訳): Zero-shot Text-To-Speech (TTS) 合成は、音声クローニングによるパーソナライズされた音声のカスタマイズに非常に有望である。
しかしながら、ゼロショットTSを実現するための現在の方法は、様々な話者間での良好なパフォーマンスと一般化を保証するために、大規模なモデルスケールと広範なトレーニングデータセットに大きく依存している。
これにより、デプロイメントコストとデータセキュリティの両方に関する懸念が高まる。
本稿では,軽量で安定なゼロショットTSシステムを提案する。
本稿では,言語内容と様々な話者属性を,それぞれソース音声とプロンプト音声から効果的にモデル化する新しいTSアーキテクチャを提案する。
さらに,学習データの観点から,言語内容や話者を効果的に切り離すための並列データペアを構築する2段階の自己蒸留フレームワークを提案する。
広汎な実験により, ゼロショットTSタスクにおいて, 優れた性能と優れた安定性を示すことがわかった。
さらに、CPUとGPUでそれぞれ0.13と0.012のRTFを持つ計算効率が著しく向上している。
関連論文リスト
- Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - MultiVerse: Efficient and Expressive Zero-Shot Multi-Task Text-to-Speech [7.038489351956803]
MultiVerseは、ゼロショットのマルチタスクTSシステムであり、ゼロショットおよびクロスランガル条件下でTSや音声スタイルの転送を行うことができる。
我々は、フィルタ関連およびソース関連表現をモデル化するためのプロンプトを利用して、ソースフィルタ理論に基づくアンタングルメントを用いる。
我々の新しい韻律モデリング技術は、与えられた韻律と高い韻律的類似性を持つ音声を生成するMultiVerseの能力に大きく貢献する。
論文 参考訳(メタデータ) (2024-10-04T07:10:25Z) - SpoofCeleb: Speech Deepfake Detection and SASV In The Wild [76.71096751337888]
SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。
我々は,テキスト・トゥ・スペーチ(TTS)システムによって生成された実世界の状況からのソースデータとスプーフィング攻撃を利用して,同じ実世界のデータに基づいて訓練した。
SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
論文 参考訳(メタデータ) (2024-09-18T23:17:02Z) - SSL-TTS: Leveraging Self-Supervised Embeddings and kNN Retrieval for Zero-Shot Multi-speaker TTS [18.701864254184308]
TTSの効果的な中間表現として,自己教師付き学習(SSL)音声の特徴が出現している。
本研究では、単一話者からの音声の書き起こしに基づいて訓練された軽量で効率的なゼロショットTTSフレームワークであるSSL-TTSを紹介する。
論文 参考訳(メタデータ) (2024-08-20T12:09:58Z) - DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer [9.032701216955497]
市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。
提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。
トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
論文 参考訳(メタデータ) (2024-06-17T11:25:57Z) - Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice
Conversion for everyone [0.7927630381442314]
YourTTSは、ゼロショットマルチスピーカーTSのタスクに多言語アプローチのパワーをもたらす。
我々は、VCTKデータセット上のゼロショット音声変換において、ゼロショットマルチスピーカTSとSOTAに匹敵する結果を得る。
1分未満の音声でYourTTSモデルを微調整し、最先端の結果を音声に類似し、妥当な品質で達成することが可能である。
論文 参考訳(メタデータ) (2021-12-04T19:50:29Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Learning Speaker Embedding from Text-to-Speech [59.80309164404974]
我々は,エンドツーエンドのTacotron 2 TTSと話者埋め込みネットワークを,自己指導型で共同で訓練した。
本研究は,手書き文字とASR書き起こし文字のトレーニングについて検討した。
教師なしTS埋め込みは、LibriTTSデータセットのi-vectorに関して、EERを2.06%改善した。
論文 参考訳(メタデータ) (2020-10-21T18:03:16Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。