論文の概要: Adapter-Based Extension of Multi-Speaker Text-to-Speech Model for New
Speakers
- arxiv url: http://arxiv.org/abs/2211.00585v1
- Date: Tue, 1 Nov 2022 16:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 15:11:20.462568
- Title: Adapter-Based Extension of Multi-Speaker Text-to-Speech Model for New
Speakers
- Title(参考訳): 新しい話者のための多話者テキスト音声モデルのアダプタベース拡張
- Authors: Cheng-Ping Hsieh, Subhankar Ghosh, Boris Ginsburg
- Abstract要約: ファインチューニングは、テキスト音声(TTS)モデルを新しい話者に適応させる一般的な方法である。
また、ファインチューニングは、以前に学習した話者の音声合成の質に悪影響を及ぼす可能性がある。
本稿では,パラメータ効率のよいアダプタモジュールを用いたTTS適応手法を提案する。
- 参考スコア(独自算出の注目度): 8.980713707011953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning is a popular method for adapting text-to-speech (TTS) models to
new speakers. However this approach has some challenges. Usually fine-tuning
requires several hours of high quality speech per speaker. There is also that
fine-tuning will negatively affect the quality of speech synthesis for
previously learnt speakers. In this paper we propose an alternative approach
for TTS adaptation based on using parameter-efficient adapter modules. In the
proposed approach, a few small adapter modules are added to the original
network. The original weights are frozen, and only the adapters are fine-tuned
on speech for new speaker. The parameter-efficient fine-tuning approach will
produce a new model with high level of parameter sharing with original model.
Our experiments on LibriTTS, HiFi-TTS and VCTK datasets validate the
effectiveness of adapter-based method through objective and subjective metrics.
- Abstract(参考訳): ファインチューニングは、テキスト音声(TTS)モデルを新しい話者に適応させる一般的な方法である。
しかし、このアプローチにはいくつかの課題がある。
通常、微調整には話者あたりの音質が数時間必要である。
また、微調整は、事前学習した話者の音声合成の品質に悪影響を及ぼす。
本稿では,パラメータ効率のよいアダプタモジュールを用いたTS適応の代替手法を提案する。
提案手法では、いくつかの小さなアダプタモジュールを元のネットワークに追加する。
オリジナルの重量は凍結され、アダプターだけが新しいスピーカーの音声に微調整されている。
パラメータ効率の良い微調整アプローチは、元のモデルと高いレベルのパラメータ共有を持つ新しいモデルを生成する。
LibriTTS, HiFi-TTS, VCTKデータセットを用いた実験により, 適応型手法の有効性を客観的および主観的指標を用いて検証した。
関連論文リスト
- Lightweight Zero-shot Text-to-Speech with Mixture of Adapters [36.29364245236912]
アダプタの混合 (MoA) を用いた軽量ゼロショット音声合成 (TTS) 手法を提案する。
提案手法は,非自己回帰的TSSモデルのデコーダと分散アダプタにMoAモジュールを組み込む。
提案手法は,最小限の追加パラメータで高品質な音声合成を実現する。
論文 参考訳(メタデータ) (2024-07-01T13:45:31Z) - ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for
Low-Resource TTS Adaptation [18.84413550077318]
本研究では,異なる話者の独特の特徴を学習するために「アダプタの混合」手法を提案する。
提案手法は,話者選好試験において5%の顕著な改善がみられ,ベースラインよりも優れていた。
これはパラメータ効率のよい話者適応において重要な成果であり、この種の最初のモデルの1つである。
論文 参考訳(メタデータ) (2023-05-29T11:39:01Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation [21.218195769245032]
本稿では,残差アダプタと呼ばれるトレーニング可能な軽量モジュールでバックボーンモデルを拡張したパラメータ効率の低い少数話者適応を提案する。
実験結果から,提案手法は完全微調整手法と比較して,競合自然性や話者類似性を実現できることが示された。
論文 参考訳(メタデータ) (2022-10-28T03:33:07Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z) - BOFFIN TTS: Few-Shot Speaker Adaptation by Bayesian Optimization [15.698168668305001]
本稿では,少数話者適応のための新しいアプローチであるBOFFIN TTSを提案する。
BOFFIN TTSは10分以内の音声で新しい話者を合成できることを示す。
論文 参考訳(メタデータ) (2020-02-04T16:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。