論文の概要: NAUTILUS: a Versatile Voice Cloning System
- arxiv url: http://arxiv.org/abs/2005.11004v2
- Date: Wed, 7 Oct 2020 01:12:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 09:34:18.093660
- Title: NAUTILUS: a Versatile Voice Cloning System
- Title(参考訳): ナウティラス(NAUTILUS:Versatile Voice Cloning System)
- Authors: Hieu-Thi Luong, Junichi Yamagishi
- Abstract要約: NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
- 参考スコア(独自算出の注目度): 44.700803634034486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel speech synthesis system, called NAUTILUS, that can
generate speech with a target voice either from a text input or a reference
utterance of an arbitrary source speaker. By using a multi-speaker speech
corpus to train all requisite encoders and decoders in the initial training
stage, our system can clone unseen voices using untranscribed speech of target
speakers on the basis of the backpropagation algorithm. Moreover, depending on
the data circumstance of the target speaker, the cloning strategy can be
adjusted to take advantage of additional data and modify the behaviors of
text-to-speech (TTS) and/or voice conversion (VC) systems to accommodate the
situation. We test the performance of the proposed framework by using deep
convolution layers to model the encoders, decoders and WaveNet vocoder.
Evaluations show that it achieves comparable quality with state-of-the-art TTS
and VC systems when cloning with just five minutes of untranscribed speech.
Moreover, it is demonstrated that the proposed framework has the ability to
switch between TTS and VC with high speaker consistency, which will be useful
for many applications.
- Abstract(参考訳): 我々は、テキスト入力または任意の音源話者の参照発話からターゲット音声で音声を生成するNAUTILUSと呼ばれる新しい音声合成システムを導入する。
複数話者音声コーパスを用いて、初期訓練段階で必要なエンコーダとデコーダをすべて訓練することにより、バックプロパゲーションアルゴリズムに基づいて、対象話者の未書き込み音声を用いて未認識音声をクローンすることができる。
また、対象話者のデータ状況に応じて、追加データを利用してクローン戦略を調整し、テキスト対音声変換(tts)および/または音声変換(vc)システムの動作を変更して状況に対応させることができる。
本稿では,エンコーダ,デコーダ,ウェーブネットボコーダをモデル化する深層畳み込み層を用いて,提案フレームワークの性能をテストする。
評価の結果、現在最先端のTSやVCシステムと同等の品質を達成できることがわかった。
さらに,提案フレームワークでは,ttsとvcを高い話者一貫性で切り替えることが可能であり,多くのアプリケーションで有用であることを示す。
関連論文リスト
- Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - Voice Filter: Few-shot text-to-speech speaker adaptation using voice
conversion as a post-processing module [16.369219400819134]
最先端の音声合成システム(TTS)は、高品質な合成音声を生成するために、数時間の音声データを記録する必要がある。
トレーニングデータの量を減らす場合、標準のTSモデルは音声品質と知性劣化に悩まされる。
本稿では,ターゲット話者からの音声を1分以内で処理するVoice Filterという,非常に低リソースなTTS手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T16:12:21Z) - Improve Cross-lingual Voice Cloning Using Low-quality Code-switched Data [11.18504333789534]
そこで本研究では,非対象話者からの低品質なコード切替データを用いて,対象話者に対する言語間音声のクローニングを実現することを提案する。
実験により,提案手法は,自然性と話者の整合性の両面から,目標音声における高品質なコードスイッチ音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2021-10-14T08:16:06Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Cotatron: Transcription-Guided Speech Encoder for Any-to-Many Voice
Conversion without Parallel Data [5.249587285519702]
コタトロン (Cotatron) は、話者に依存しない言語表現のための書き起こし誘導音声エンコーダである。
従来の手法とよく似たコタトロン特徴を用いて音声を再構成する音声変換システムを訓練する。
また,学習中に見つからない話者からの音声を変換し,ASRを用いて音声の書き起こしを最小限に抑えることができる。
論文 参考訳(メタデータ) (2020-05-07T07:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。