論文の概要: Lightweight Zero-shot Text-to-Speech with Mixture of Adapters
- arxiv url: http://arxiv.org/abs/2407.01291v1
- Date: Mon, 1 Jul 2024 13:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-03 21:20:18.387302
- Title: Lightweight Zero-shot Text-to-Speech with Mixture of Adapters
- Title(参考訳): 適応器を混合した軽量ゼロショットテキスト音声合成
- Authors: Kenichi Fujita, Takanori Ashihara, Marc Delcroix, Yusuke Ijima,
- Abstract要約: アダプタの混合 (MoA) を用いた軽量ゼロショット音声合成 (TTS) 手法を提案する。
提案手法は,非自己回帰的TSSモデルのデコーダと分散アダプタにMoAモジュールを組み込む。
提案手法は,最小限の追加パラメータで高品質な音声合成を実現する。
- 参考スコア(独自算出の注目度): 36.29364245236912
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The advancements in zero-shot text-to-speech (TTS) methods, based on large-scale models, have demonstrated high fidelity in reproducing speaker characteristics. However, these models are too large for practical daily use. We propose a lightweight zero-shot TTS method using a mixture of adapters (MoA). Our proposed method incorporates MoA modules into the decoder and the variance adapter of a non-autoregressive TTS model. These modules enhance the ability to adapt a wide variety of speakers in a zero-shot manner by selecting appropriate adapters associated with speaker characteristics on the basis of speaker embeddings. Our method achieves high-quality speech synthesis with minimal additional parameters. Through objective and subjective evaluations, we confirmed that our method achieves better performance than the baseline with less than 40\% of parameters at 1.9 times faster inference speed. Audio samples are available on our demo page (https://ntt-hilab-gensp.github.io/is2024lightweightTTS/).
- Abstract(参考訳): 大規模モデルに基づくゼロショット音声合成法(TTS)の進歩は,話者特性の再現において高い忠実性を示した。
しかし、これらのモデルは日常的に使うには大きすぎる。
アダプタの混合(MoA)を用いた軽量ゼロショットTS法を提案する。
提案手法は,非自己回帰的TSSモデルのデコーダと分散アダプタにMoAモジュールを組み込む。
これらのモジュールは、話者埋め込みに基づいて、話者特性に付随する適切なアダプタを選択することにより、様々な話者をゼロショットで適応させる能力を高める。
提案手法は,最小限の追加パラメータで高品質な音声合成を実現する。
主観的および主観的評価により,提案手法は推定速度1.9倍のパラメータの40倍未満で,ベースラインよりも優れた性能が得られることを確認した。
オーディオサンプルはデモページで公開されています(https://ntt-hilab-gensp.github.io/is2024lightweightTTS/)。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for
Low-Resource TTS Adaptation [18.84413550077318]
本研究では,異なる話者の独特の特徴を学習するために「アダプタの混合」手法を提案する。
提案手法は,話者選好試験において5%の顕著な改善がみられ,ベースラインよりも優れていた。
これはパラメータ効率のよい話者適応において重要な成果であり、この種の最初のモデルの1つである。
論文 参考訳(メタデータ) (2023-05-29T11:39:01Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Adapter-Based Extension of Multi-Speaker Text-to-Speech Model for New
Speakers [8.980713707011953]
ファインチューニングは、テキスト音声(TTS)モデルを新しい話者に適応させる一般的な方法である。
また、ファインチューニングは、以前に学習した話者の音声合成の質に悪影響を及ぼす可能性がある。
本稿では,パラメータ効率のよいアダプタモジュールを用いたTTS適応手法を提案する。
論文 参考訳(メタデータ) (2022-11-01T16:59:54Z) - Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation [21.218195769245032]
本稿では,残差アダプタと呼ばれるトレーニング可能な軽量モジュールでバックボーンモデルを拡張したパラメータ効率の低い少数話者適応を提案する。
実験結果から,提案手法は完全微調整手法と比較して,競合自然性や話者類似性を実現できることが示された。
論文 参考訳(メタデータ) (2022-10-28T03:33:07Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - BOFFIN TTS: Few-Shot Speaker Adaptation by Bayesian Optimization [15.698168668305001]
本稿では,少数話者適応のための新しいアプローチであるBOFFIN TTSを提案する。
BOFFIN TTSは10分以内の音声で新しい話者を合成できることを示す。
論文 参考訳(メタデータ) (2020-02-04T16:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。