論文の概要: Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation
- arxiv url: http://arxiv.org/abs/2210.15868v1
- Date: Fri, 28 Oct 2022 03:33:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 16:59:53.923876
- Title: Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation
- Title(参考訳): Few-Shot Text-to-Speech Speaker Adaptationのための残差適応器
- Authors: Nobuyuki Morioka, Heiga Zen, Nanxin Chen, Yu Zhang, Yifan Ding
- Abstract要約: 本稿では,残差アダプタと呼ばれるトレーニング可能な軽量モジュールでバックボーンモデルを拡張したパラメータ効率の低い少数話者適応を提案する。
実験結果から,提案手法は完全微調整手法と比較して,競合自然性や話者類似性を実現できることが示された。
- 参考スコア(独自算出の注目度): 21.218195769245032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting a neural text-to-speech (TTS) model to a target speaker typically
involves fine-tuning most if not all of the parameters of a pretrained
multi-speaker backbone model. However, serving hundreds of fine-tuned neural
TTS models is expensive as each of them requires significant footprint and
separate computational resources (e.g., accelerators, memory). To scale speaker
adapted neural TTS voices to hundreds of speakers while preserving the
naturalness and speaker similarity, this paper proposes a parameter-efficient
few-shot speaker adaptation, where the backbone model is augmented with
trainable lightweight modules called residual adapters. This architecture
allows the backbone model to be shared across different target speakers.
Experimental results show that the proposed approach can achieve competitive
naturalness and speaker similarity compared to the full fine-tuning approaches,
while requiring only $\sim$0.1% of the backbone model parameters for each
speaker.
- Abstract(参考訳): ターゲット話者にニューラルテキスト音声(TTS)モデルを適用する場合、トレーニング済みのマルチスピーカーバックボーンモデルのパラメータのすべてではない場合、ほとんどを微調整する。
しかしながら、数百の微調整されたニューラルネットワークttsモデルは、それぞれがかなりのフットプリントと別々の計算リソース(加速器やメモリなど)を必要とするため、費用がかかる。
本稿では, 話者適応型ニューラルTS音声を, 自然性や話者類似性を保ちながら数百人の話者に拡張するために, バックボーンモデルに残留アダプタと呼ばれる訓練可能な軽量モジュールを付加したパラメータ効率の良い少数ショット話者適応を提案する。
このアーキテクチャにより、バックボーンモデルは異なるターゲットスピーカー間で共有できる。
実験結果から,提案手法は,完全微調整方式に比べて競合的自然性と話者類似性が得られ,各話者のバックボーンモデルパラメータの$\sim$0.1%しか必要とされないことがわかった。
関連論文リスト
- SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection [7.6732312922460055]
本稿では,対象話者から適切なフレームを選択するための新しい手法であるSelectTTSを提案し,フレームレベルの自己教師型学習(SSL)機能を用いてデコードする。
提案手法は,未知話者の話者特性を効果的に把握し,主観的および主観的の両方において,他のマルチ話者テキスト音声フレームワークに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:34:46Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech [26.533600745910437]
本稿では,TSモデルの一般化能力を向上させるために,スパースアテンション(sparse attention)と呼ばれる変圧器の効率的なプルーニング法を提案する。
また,モデルがしきい値を自動的に学習することのできる,新しい微分可能なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-28T21:25:05Z) - ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for
Low-Resource TTS Adaptation [18.84413550077318]
本研究では,異なる話者の独特の特徴を学習するために「アダプタの混合」手法を提案する。
提案手法は,話者選好試験において5%の顕著な改善がみられ,ベースラインよりも優れていた。
これはパラメータ効率のよい話者適応において重要な成果であり、この種の最初のモデルの1つである。
論文 参考訳(メタデータ) (2023-05-29T11:39:01Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Adapter-Based Extension of Multi-Speaker Text-to-Speech Model for New
Speakers [8.980713707011953]
ファインチューニングは、テキスト音声(TTS)モデルを新しい話者に適応させる一般的な方法である。
また、ファインチューニングは、以前に学習した話者の音声合成の質に悪影響を及ぼす可能性がある。
本稿では,パラメータ効率のよいアダプタモジュールを用いたTTS適応手法を提案する。
論文 参考訳(メタデータ) (2022-11-01T16:59:54Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - BOFFIN TTS: Few-Shot Speaker Adaptation by Bayesian Optimization [15.698168668305001]
本稿では,少数話者適応のための新しいアプローチであるBOFFIN TTSを提案する。
BOFFIN TTSは10分以内の音声で新しい話者を合成できることを示す。
論文 参考訳(メタデータ) (2020-02-04T16:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。