論文の概要: Generating Multilingual Voices Using Speaker Space Translation Based on
Bilingual Speaker Data
- arxiv url: http://arxiv.org/abs/2004.04972v1
- Date: Fri, 10 Apr 2020 10:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 20:26:39.657156
- Title: Generating Multilingual Voices Using Speaker Space Translation Based on
Bilingual Speaker Data
- Title(参考訳): バイリンガル話者データに基づく話者空間変換を用いた多言語音声の生成
- Authors: Soumi Maiti, Erik Marchi, Alistair Conkie
- Abstract要約: 言語における合成音声のアクセントの度合いを制御するために,話者空間における単純な変換が利用できることを示す。
同じ変換を単言語話者にも適用することができる。
- 参考スコア(独自算出の注目度): 15.114637085644057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present progress towards bilingual Text-to-Speech which is able to
transform a monolingual voice to speak a second language while preserving
speaker voice quality. We demonstrate that a bilingual speaker embedding space
contains a separate distribution for each language and that a simple transform
in speaker space generated by the speaker embedding can be used to control the
degree of accent of a synthetic voice in a language. The same transform can be
applied even to monolingual speakers.
In our experiments speaker data from an English-Spanish (Mexican) bilingual
speaker was used, and the goal was to enable English speakers to speak Spanish
and Spanish speakers to speak English. We found that the simple transform was
sufficient to convert a voice from one language to the other with a high degree
of naturalness. In one case the transformed voice outperformed a native
language voice in listening tests. Experiments further indicated that the
transform preserved many of the characteristics of the original voice. The
degree of accent present can be controlled and naturalness is relatively
consistent across a range of accent values.
- Abstract(参考訳): 本稿では,話者の音声品質を維持しつつ,単言語音声を第2言語に変換可能なバイリンガル音声対音声処理の進展について述べる。
両言語話者埋め込み空間は、各言語に対する別の分布を含み、話者埋め込みによって生成される話者空間の単純な変換は、言語における合成音声のアクセントの程度を制御するために使用できることを示す。
同じ変換を単言語話者にも適用することができる。
実験では,英語-スペイン語(メキシコ語)バイリンガル話者の話者データを用いて,スペイン語とスペイン語の話者が英語を話せるようにすることを目的とした。
単純な変換は、自然度の高い言語から他の言語へ音声を変換するのに十分であることがわかった。
あるケースでは、変換された音声は、リスニングテストでネイティブ言語の声よりも優れています。
さらに実験によれば、この変換は元の声の特徴の多くを保存していた。
現在存在するアクセントの度合いは制御でき、自然性はアクセント値の範囲で比較的一定である。
関連論文リスト
- MulliVC: Multi-lingual Voice Conversion With Cycle Consistency [75.59590240034261]
MulliVCは、音色のみを変換し、多言語ペアリングデータなしでオリジナルコンテンツとソースコードの韻律を保持する新しい音声変換システムである。
目的と主観の両方の結果から,MulliVCはモノリンガルとクロスリンガルの両方の文脈において,他の手法をはるかに上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-08-08T18:12:51Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - Multilingual Multiaccented Multispeaker TTS with RADTTS [21.234787964238645]
RADTTSに基づく多言語・多言語・多話者音声合成モデルを提案する。
7つのアクセントからなるオープンソースデータセットにおいて、任意の話者に対して合成アクセントを制御する能力を示す。
論文 参考訳(メタデータ) (2023-01-24T22:39:04Z) - Voice-preserving Zero-shot Multiple Accent Conversion [14.218374374305421]
アクセント変換システムは、話者のアクセントを変更するが、その話者の音声アイデンティティを保持する。
我々は,他の音響特性を維持しつつ,アクセント依存的特徴をアンタングル化するために,対角学習を用いる。
我々のモデルは、ターゲットのアクセントに近づき、元の話者のように聞こえる音声を生成する。
論文 参考訳(メタデータ) (2022-11-23T19:51:16Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Towards Natural Bilingual and Code-Switched Speech Synthesis Based on
Mix of Monolingual Recordings and Cross-Lingual Voice Conversion [28.830575877307176]
両方の言語でネイティブレベルの流布を実現する話者からバイリンガルコーパスを得るのは容易ではない。
タコトロン2に基づく音声変換システムを用いて、マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。
得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
論文 参考訳(メタデータ) (2020-10-16T03:51:00Z) - Latent linguistic embedding for cross-lingual text-to-speech and voice
conversion [44.700803634034486]
言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。
提案手法は, 話者類似度の高い多言語VCを生成するだけでなく, 余分なステップを踏むことなく, TTSをシームレスに利用できることを示す。
論文 参考訳(メタデータ) (2020-10-08T01:25:07Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。