論文の概要: Improving Cross-lingual Speech Synthesis with Triplet Training Scheme
- arxiv url: http://arxiv.org/abs/2202.10729v1
- Date: Tue, 22 Feb 2022 08:40:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 16:14:21.272698
- Title: Improving Cross-lingual Speech Synthesis with Triplet Training Scheme
- Title(参考訳): Triplet Training Schemeによる言語間音声合成の改善
- Authors: Jianhao Ye, Hongbin Zhou, Zhiba Su, Wendi He, Kaimeng Ren, Lin Li,
Heng Lu
- Abstract要約: 言語間の発音を高めるために, トリプルト学習法を提案する。
提案手法は、合成した言語間音声の可知性と自然性の両方に顕著な改善をもたらす。
- 参考スコア(独自算出の注目度): 5.470211567548067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in cross-lingual text-to-speech (TTS) made it possible to
synthesize speech in a language foreign to a monolingual speaker. However,
there is still a large gap between the pronunciation of generated cross-lingual
speech and that of native speakers in terms of naturalness and intelligibility.
In this paper, a triplet training scheme is proposed to enhance the
cross-lingual pronunciation by allowing previously unseen content and speaker
combinations to be seen during training. Proposed method introduces an extra
fine-tune stage with triplet loss during training, which efficiently draws the
pronunciation of the synthesized foreign speech closer to those from the native
anchor speaker, while preserving the non-native speaker's timbre. Experiments
are conducted based on a state-of-the-art baseline cross-lingual TTS system and
its enhanced variants. All the objective and subjective evaluations show the
proposed method brings significant improvement in both intelligibility and
naturalness of the synthesized cross-lingual speech.
- Abstract(参考訳): 近年の言語間テキスト合成(TTS)の進歩により,単言語話者以外の言語での音声合成が可能になった。
しかし, 言語間音声の発音と母語話者の発音の間には, 自然性や知性の観点からは大きなギャップがある。
本稿では,従来目に見えなかった内容と話者の組み合わせを学習中に見られるようにすることで,言語間発音を向上させるために三重奏法を提案する。
提案手法では, 学習中に三重項が失われる付加的な微細音節ステージを導入し, 非母語話者の音色を保ちながら, ネイティブアンカー話者の音色に近い音色を効率的に発音する。
実験は最先端のベースライン言語間TSシステムとその拡張型に基づいて行われる。
提案手法の目的的および主観的評価は, 合成言語間音声の明瞭性と自然性に有意な改善をもたらした。
関連論文リスト
- MulliVC: Multi-lingual Voice Conversion With Cycle Consistency [75.59590240034261]
MulliVCは、音色のみを変換し、多言語ペアリングデータなしでオリジナルコンテンツとソースコードの韻律を保持する新しい音声変換システムである。
目的と主観の両方の結果から,MulliVCはモノリンガルとクロスリンガルの両方の文脈において,他の手法をはるかに上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-08-08T18:12:51Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - SANE-TTS: Stable And Natural End-to-End Multilingual Text-to-Speech [0.3277163122167433]
SANE-TTS は安定かつ自然な多言語 TTS モデルである。
言語間合成における音声自然性を改善する話者正規化損失を導入する。
本モデルでは, 音源話者によらず, 適度なリズムの音声を生成する。
論文 参考訳(メタデータ) (2022-06-24T07:53:05Z) - Cross-Lingual Text-to-Speech Using Multi-Task Learning and Speaker
Classifier Joint Training [6.256271702518489]
言語間音声合成では、モノグロット話者に対して様々な言語の音声を合成することができる。
本稿では,言語間話者類似性を改善するためのマルチタスク学習フレームワークについて検討する。
論文 参考訳(メタデータ) (2022-01-20T12:02:58Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Towards Natural Bilingual and Code-Switched Speech Synthesis Based on
Mix of Monolingual Recordings and Cross-Lingual Voice Conversion [28.830575877307176]
両方の言語でネイティブレベルの流布を実現する話者からバイリンガルコーパスを得るのは容易ではない。
タコトロン2に基づく音声変換システムを用いて、マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。
得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
論文 参考訳(メタデータ) (2020-10-16T03:51:00Z) - Latent linguistic embedding for cross-lingual text-to-speech and voice
conversion [44.700803634034486]
言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。
提案手法は, 話者類似度の高い多言語VCを生成するだけでなく, 余分なステップを踏むことなく, TTSをシームレスに利用できることを示す。
論文 参考訳(メタデータ) (2020-10-08T01:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。