論文の概要: Latent linguistic embedding for cross-lingual text-to-speech and voice
conversion
- arxiv url: http://arxiv.org/abs/2010.03717v1
- Date: Thu, 8 Oct 2020 01:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:53:17.731224
- Title: Latent linguistic embedding for cross-lingual text-to-speech and voice
conversion
- Title(参考訳): 言語横断型音声変換のための潜在言語埋め込み
- Authors: Hieu-Thi Luong, Junichi Yamagishi
- Abstract要約: 言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。
提案手法は, 話者類似度の高い多言語VCを生成するだけでなく, 余分なステップを踏むことなく, TTSをシームレスに利用できることを示す。
- 参考スコア(独自算出の注目度): 44.700803634034486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the recently proposed voice cloning system, NAUTILUS, is capable of
cloning unseen voices using untranscribed speech, we investigate the
feasibility of using it to develop a unified cross-lingual TTS/VC system.
Cross-lingual speech generation is the scenario in which speech utterances are
generated with the voices of target speakers in a language not spoken by them
originally. This type of system is not simply cloning the voice of the target
speaker, but essentially creating a new voice that can be considered better
than the original under a specific framing. By using a well-trained English
latent linguistic embedding to create a cross-lingual TTS and VC system for
several German, Finnish, and Mandarin speakers included in the Voice Conversion
Challenge 2020, we show that our method not only creates cross-lingual VC with
high speaker similarity but also can be seamlessly used for cross-lingual TTS
without having to perform any extra steps. However, the subjective evaluations
of perceived naturalness seemed to vary between target speakers, which is one
aspect for future improvement.
- Abstract(参考訳): 最近提案された音声クローニングシステムであるNAUTILUSは、未転写音声を用いて未確認音声をクローニングできるので、これを用いて、統合言語間TS/VCシステムの開発の可能性を検討する。
言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。
この種のシステムは、単にターゲットスピーカーの音声をクローンするだけでなく、特定のフレーミングの下でオリジナルより優れていると考えられる新しい音声を生成する。
音声変換チャレンジ2020に含まれるドイツ語、フィンランド語、マンダリン語話者のための、言語間TTSおよびVCシステムを構築するために、よく訓練された英語の潜在言語埋め込みを用いて、我々の手法は、高い話者類似度を持つ言語間VCを生成するだけでなく、追加ステップを行わずに、言語間TSにシームレスに使用できることを示す。
しかし, 自然感の主観的評価は, 将来の改善の1つの側面である対象話者によって異なるように思われた。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - MulliVC: Multi-lingual Voice Conversion With Cycle Consistency [75.59590240034261]
MulliVCは、音色のみを変換し、多言語ペアリングデータなしでオリジナルコンテンツとソースコードの韻律を保持する新しい音声変換システムである。
目的と主観の両方の結果から,MulliVCはモノリンガルとクロスリンガルの両方の文脈において,他の手法をはるかに上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-08-08T18:12:51Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Cross-lingual Text-To-Speech with Flow-based Voice Conversion for
Improved Pronunciation [11.336431583289382]
本稿では,エンドツーエンドの言語間テキスト合成手法を提案する。
本来の話者の言語によらず、対象言語の発音を維持することを目的としている。
論文 参考訳(メタデータ) (2022-10-31T12:44:53Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Improve Cross-lingual Voice Cloning Using Low-quality Code-switched Data [11.18504333789534]
そこで本研究では,非対象話者からの低品質なコード切替データを用いて,対象話者に対する言語間音声のクローニングを実現することを提案する。
実験により,提案手法は,自然性と話者の整合性の両面から,目標音声における高品質なコードスイッチ音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2021-10-14T08:16:06Z) - Towards Natural Bilingual and Code-Switched Speech Synthesis Based on
Mix of Monolingual Recordings and Cross-Lingual Voice Conversion [28.830575877307176]
両方の言語でネイティブレベルの流布を実現する話者からバイリンガルコーパスを得るのは容易ではない。
タコトロン2に基づく音声変換システムを用いて、マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。
得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
論文 参考訳(メタデータ) (2020-10-16T03:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。