論文の概要: BOFFIN TTS: Few-Shot Speaker Adaptation by Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2002.01953v1
- Date: Tue, 4 Feb 2020 16:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 02:50:03.332871
- Title: BOFFIN TTS: Few-Shot Speaker Adaptation by Bayesian Optimization
- Title(参考訳): BOFFIN TTS:ベイズ最適化による少数ショット話者適応
- Authors: Henry B.Moss, Vatsal Aggarwal, Nishant Prateek, Javier Gonz\'alez,
Roberto Barra-Chicote
- Abstract要約: 本稿では,少数話者適応のための新しいアプローチであるBOFFIN TTSを提案する。
BOFFIN TTSは10分以内の音声で新しい話者を合成できることを示す。
- 参考スコア(独自算出の注目度): 15.698168668305001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BOFFIN TTS (Bayesian Optimization For FIne-tuning Neural Text To
Speech), a novel approach for few-shot speaker adaptation. Here, the task is to
fine-tune a pre-trained TTS model to mimic a new speaker using a small corpus
of target utterances. We demonstrate that there does not exist a
one-size-fits-all adaptation strategy, with convincing synthesis requiring a
corpus-specific configuration of the hyper-parameters that control fine-tuning.
By using Bayesian optimization to efficiently optimize these hyper-parameter
values for a target speaker, we are able to perform adaptation with an average
30% improvement in speaker similarity over standard techniques. Results
indicate, across multiple corpora, that BOFFIN TTS can learn to synthesize new
speakers using less than ten minutes of audio, achieving the same naturalness
as produced for the speakers used to train the base model.
- Abstract(参考訳): 本稿では,話者適応のための新しいアプローチであるBOFFIN TTS(Bayesian Optimization for FIne-tuning Neural Text To Speech)を提案する。
ここでは、ターゲット発話の小さなコーパスを用いて、訓練済みのTSモデルを微調整し、新しい話者を模倣する。
微調整制御を行うハイパーパラメータのコーパス固有の構成を必要とするような,一様適応戦略は存在しないことを実証する。
ターゲット話者のハイパーパラメータ値を効率的に最適化するためにベイズ最適化を用いることで、標準手法よりも平均30%高い話者類似度で適応することができる。
複数のコーパスを通して、boffin ttsは10分未満の音声を使って新しい話者を合成することを学び、ベースモデルを訓練するために使用する話者と同じ自然性を達成することが示されている。
関連論文リスト
- SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection [7.6732312922460055]
本稿では,対象話者から適切なフレームを選択するための新しい手法であるSelectTTSを提案し,フレームレベルの自己教師型学習(SSL)機能を用いてデコードする。
提案手法は,未知話者の話者特性を効果的に把握し,主観的および主観的の両方において,他のマルチ話者テキスト音声フレームワークに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:34:46Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Adapter-Based Extension of Multi-Speaker Text-to-Speech Model for New
Speakers [8.980713707011953]
ファインチューニングは、テキスト音声(TTS)モデルを新しい話者に適応させる一般的な方法である。
また、ファインチューニングは、以前に学習した話者の音声合成の質に悪影響を及ぼす可能性がある。
本稿では,パラメータ効率のよいアダプタモジュールを用いたTTS適応手法を提案する。
論文 参考訳(メタデータ) (2022-11-01T16:59:54Z) - Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation [21.218195769245032]
本稿では,残差アダプタと呼ばれるトレーニング可能な軽量モジュールでバックボーンモデルを拡張したパラメータ効率の低い少数話者適応を提案する。
実験結果から,提案手法は完全微調整手法と比較して,競合自然性や話者類似性を実現できることが示された。
論文 参考訳(メタデータ) (2022-10-28T03:33:07Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。