論文の概要: Meta-Voice: Fast few-shot style transfer for expressive voice cloning
using meta learning
- arxiv url: http://arxiv.org/abs/2111.07218v1
- Date: Sun, 14 Nov 2021 01:30:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 11:30:13.811198
- Title: Meta-Voice: Fast few-shot style transfer for expressive voice cloning
using meta learning
- Title(参考訳): Meta-Voice:メタラーニングを用いた表現的音声クローニングのための高速数ショットスタイル転送
- Authors: Songxiang Liu, Dan Su, Dong Yu
- Abstract要約: テキスト音声合成(TTS)における音声クローンのための少数ショットスタイル転送の課題は、非常に限られた量の中立データを用いて、任意の音源話者の発話スタイルをターゲット話者の音声に転送することを目的としている。
学習アルゴリズムは、数発の音声クローンと話者/韻律のアンタングルを同時に扱う必要があるため、これは非常に難しい作業である。
本稿では,メタラーニングを用いた音声のクローン処理のための高速な数ショットスタイル転送手法を提案する。
- 参考スコア(独自算出の注目度): 37.73490851004852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of few-shot style transfer for voice cloning in text-to-speech (TTS)
synthesis aims at transferring speaking styles of an arbitrary source speaker
to a target speaker's voice using very limited amount of neutral data. This is
a very challenging task since the learning algorithm needs to deal with
few-shot voice cloning and speaker-prosody disentanglement at the same time.
Accelerating the adaptation process for a new target speaker is of importance
in real-world applications, but even more challenging. In this paper, we
approach to the hard fast few-shot style transfer for voice cloning task using
meta learning. We investigate the model-agnostic meta-learning (MAML) algorithm
and meta-transfer a pre-trained multi-speaker and multi-prosody base TTS model
to be highly sensitive for adaptation with few samples. Domain adversarial
training mechanism and orthogonal constraint are adopted to disentangle speaker
and prosody representations for effective cross-speaker style transfer.
Experimental results show that the proposed approach is able to conduct fast
voice cloning using only 5 samples (around 12 second speech data) from a target
speaker, with only 100 adaptation steps. Audio samples are available online.
- Abstract(参考訳): text-to-speech(tts)合成における音声クローニングのための少数ショットスタイル転送の課題は、任意の音源話者の発話スタイルを、非常に限られた中性データを使用してターゲット話者の声に転送することである。
学習アルゴリズムは、わずかな声のクローンと話者-韻律の不一致を同時に扱う必要があるため、これは非常に難しい課題です。
新しいターゲットスピーカーの適応プロセスを加速することは、現実世界のアプリケーションでは重要だが、さらに難しい。
本稿では,メタラーニングを用いた音声クローン処理における高速な数ショットスタイル転送手法を提案する。
モデル非依存型メタラーニング(maml)アルゴリズムと事前学習されたマルチスピーカーおよびマルチプロトコルベースttsモデルのメタトランスファーについて検討し,サンプル数が少ない適応に対して高い感度を示す。
ドメイン逆訓練機構と直交制約により、話者と韻律表現を区別し、効果的なクロススピーカースタイル転送を行う。
実験結果から,提案手法は,100ステップの適応ステップで,対象話者から5例(約12秒音声データ)のサンプルのみを用いて,高速音声クローンが可能であった。
オーディオサンプルはオンラインで入手できる。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Advancing Voice Cloning for Nepali: Leveraging Transfer Learning in a Low-Resource Language [0.4810348726854312]
ニューラル・ボーカル・クローンシステムは、ほんの少しのオーディオサンプルを使って誰かの声を模倣することができる。
話者符号化と話者適応は、音声クローニングの分野における研究のトピックである。
主な目的は、ネパールアクセントで音声出力を生成する音声クローニングシステムを作ることである。
論文 参考訳(メタデータ) (2024-08-19T16:15:09Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Improve Cross-lingual Voice Cloning Using Low-quality Code-switched Data [11.18504333789534]
そこで本研究では,非対象話者からの低品質なコード切替データを用いて,対象話者に対する言語間音声のクローニングを実現することを提案する。
実験により,提案手法は,自然性と話者の整合性の両面から,目標音声における高品質なコードスイッチ音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2021-10-14T08:16:06Z) - Many-to-Many Voice Conversion based Feature Disentanglement using
Variational Autoencoder [2.4975981795360847]
そこで本稿では,多くの音声変換に対処するために,特徴のゆがみに基づく新しい手法を提案する。
本手法は、話者のアイデンティティと言語内容とを発話から切り離す能力を有する。
多くのソーススピーカーから単一のオートエンコーダネットワークで多くのターゲットスピーカーに変換することができる。
論文 参考訳(メタデータ) (2021-07-11T13:31:16Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Expressive Neural Voice Cloning [12.010555227327743]
合成音声の様々なスタイルの様々な側面をきめ細かな制御が可能な制御可能な音声クローニング法を提案する。
提案手法は,新たな話者のための音声サンプルの書き起こしと書き起こしのみを用いて,様々な音声のクローニング作業に利用できることを示す。
論文 参考訳(メタデータ) (2021-01-30T05:09:57Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。