Fugu-MT 論文翻訳(概要): Improve Cross-lingual Voice Cloning Using Low-quality Code-switched Data

論文の概要: Improve Cross-lingual Voice Cloning Using Low-quality Code-switched Data

arxiv url: http://arxiv.org/abs/2110.07210v1
Date: Thu, 14 Oct 2021 08:16:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-15 14:39:46.551343
Title: Improve Cross-lingual Voice Cloning Using Low-quality Code-switched Data
Title（参考訳）: 低品質コード切替データを用いた言語間音声のクローニングの改善
Authors: Haitong Zhang, Yue Lin
Abstract要約: そこで本研究では,非対象話者からの低品質なコード切替データを用いて,対象話者に対する言語間音声のクローニングを実現することを提案する。実験により,提案手法は,自然性と話者の整合性の両面から,目標音声における高品質なコードスイッチ音声を生成することができることがわかった。
参考スコア（独自算出の注目度）: 11.18504333789534
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, sequence-to-sequence (seq-to-seq) models have been successfully applied in text-to-speech (TTS) to synthesize speech for single-language text. To synthesize speech for multiple languages usually requires multi-lingual speech from the target speaker. However, it is both laborious and expensive to collect high-quality multi-lingual TTS data for the target speakers. In this paper, we proposed to use low-quality code-switched found data from the non-target speakers to achieve cross-lingual voice cloning for the target speakers. Experiments show that our proposed method can generate high-quality code-switched speech in the target voices in terms of both naturalness and speaker consistency. More importantly, we find that our method can achieve a comparable result to the state-of-the-art (SOTA) performance in cross-lingual voice cloning.
Abstract（参考訳）: 近年,テキスト・トゥ・スポーチ (TTS) ではシーケンス・トゥ・シークエンス (seq-to-seq) モデルの適用が成功している。複数の言語の音声を合成するには、通常、ターゲットの話者から多言語音声を必要とする。しかし、ターゲット話者に対して高品質な多言語TSデータを収集することは、手間と費用がかかる。本稿では,非対象話者の低品質なコード切替データを用いて,対象話者に対する言語間音声のクローニングを実現することを提案する。提案手法は,自然性と話者の一貫性の両面で,対象音声に高品質のコード切り換え音声を生成することができることを示す。さらに,本手法は,言語間音声クローニングにおける最先端(sota)性能に匹敵する結果が得られることがわかった。

関連論文リスト

Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文参考訳（メタデータ） (2025-06-04T23:53:49Z)
Speech collage: code-switched audio generation by collaging monolingual corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。 2つのシナリオにおける音声認識における生成データの影響について検討する。
論文参考訳（メタデータ） (2023-09-27T14:17:53Z)
Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文参考訳（メタデータ） (2023-08-03T15:47:04Z)
Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。 VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文参考訳（メタデータ） (2023-03-07T14:31:55Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
Cross-lingual Text-To-Speech with Flow-based Voice Conversion for Improved Pronunciation [11.336431583289382]
本稿では,エンドツーエンドの言語間テキスト合成手法を提案する。本来の話者の言語によらず、対象言語の発音を維持することを目的としている。
論文参考訳（メタデータ） (2022-10-31T12:44:53Z)
ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文参考訳（メタデータ） (2022-03-29T11:55:30Z)
Cross-lingual Low Resource Speaker Adaptation Using Phonological Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文参考訳（メタデータ） (2021-11-17T12:33:42Z)
Latent linguistic embedding for cross-lingual text-to-speech and voice conversion [44.700803634034486]
言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。提案手法は, 話者類似度の高い多言語VCを生成するだけでなく, 余分なステップを踏むことなく, TTSをシームレスに利用できることを示す。
論文参考訳（メタデータ） (2020-10-08T01:25:07Z)
NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文参考訳（メタデータ） (2020-05-22T05:00:20Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。