論文の概要: Cotatron: Transcription-Guided Speech Encoder for Any-to-Many Voice
Conversion without Parallel Data
- arxiv url: http://arxiv.org/abs/2005.03295v2
- Date: Fri, 14 Aug 2020 06:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 00:18:31.030124
- Title: Cotatron: Transcription-Guided Speech Encoder for Any-to-Many Voice
Conversion without Parallel Data
- Title(参考訳): Cotatron:並列データのない音声変換のための転写誘導音声符号化
- Authors: Seung-won Park, Doo-young Kim, Myun-chul Joe
- Abstract要約: コタトロン (Cotatron) は、話者に依存しない言語表現のための書き起こし誘導音声エンコーダである。
従来の手法とよく似たコタトロン特徴を用いて音声を再構成する音声変換システムを訓練する。
また,学習中に見つからない話者からの音声を変換し,ASRを用いて音声の書き起こしを最小限に抑えることができる。
- 参考スコア(独自算出の注目度): 5.249587285519702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Cotatron, a transcription-guided speech encoder for
speaker-independent linguistic representation. Cotatron is based on the
multispeaker TTS architecture and can be trained with conventional TTS
datasets. We train a voice conversion system to reconstruct speech with
Cotatron features, which is similar to the previous methods based on Phonetic
Posteriorgram (PPG). By training and evaluating our system with 108 speakers
from the VCTK dataset, we outperform the previous method in terms of both
naturalness and speaker similarity. Our system can also convert speech from
speakers that are unseen during training, and utilize ASR to automate the
transcription with minimal reduction of the performance. Audio samples are
available at https://mindslab-ai.github.io/cotatron, and the code with a
pre-trained model will be made available soon.
- Abstract(参考訳): 話者非依存言語表現のための音声エンコーダであるcotatronを提案する。
CotatronはマルチスピーカーTSアーキテクチャをベースにしており、従来のTSデータセットでトレーニングすることができる。
我々は音声変換システムを訓練し、従来のPhontic Posteriorgram(PPG)に基づく手法と類似したCotatron特徴を用いた音声再構成を行う。
vctkデータセットから108名の話者でシステムをトレーニングし,評価することで,自然性と話者の類似性の観点から,従来の方法よりも優れる。
また,学習中に見つからない話者からの音声を変換し,ASRを用いて音声の書き起こしを最小限に抑えることができる。
オーディオサンプルはhttps://mindslab-ai.github.io/cotatronで入手できる。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - Using IPA-Based Tacotron for Data Efficient Cross-Lingual Speaker
Adaptation and Pronunciation Enhancement [1.7704011486040843]
我々は、20分間のデータのみを用いて、同一または異なる言語から、新しい話者のための既存のTSモデルを転送可能であることを示す。
まず、言語に依存しない入力を持つ基本多言語タコトロンを導入し、話者適応の異なるシナリオに対してトランスファー学習がどのように行われるかを実証する。
論文 参考訳(メタデータ) (2020-11-12T14:05:34Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。