論文の概要: DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech
- arxiv url: http://arxiv.org/abs/2306.14145v1
- Date: Sun, 25 Jun 2023 06:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 16:32:21.221319
- Title: DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech
- Title(参考訳): DSE-TTS:言語間テキスト合成のためのデュアル話者埋め込み
- Authors: Sen Liu, Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
- Abstract要約: 話者の音色を正確に保持することが難しいため,言語間テキスト合成 (CTTS) はまだ満足できない。
そこで本研究では,CTTS のための新しい2元話者埋め込み TTS (DSE-TTS) フレームワークを提案する。
両方の埋め込みを組み合わせることで、DSE-TTSは言語間合成において最先端のSANE-TTSよりも著しく優れる。
- 参考スコア(独自算出の注目度): 30.110058338155675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although high-fidelity speech can be obtained for intralingual speech
synthesis, cross-lingual text-to-speech (CTTS) is still far from satisfactory
as it is difficult to accurately retain the speaker timbres(i.e. speaker
similarity) and eliminate the accents from their first language(i.e.
nativeness). In this paper, we demonstrated that vector-quantized(VQ) acoustic
feature contains less speaker information than mel-spectrogram. Based on this
finding, we propose a novel dual speaker embedding TTS (DSE-TTS) framework for
CTTS with authentic speaking style. Here, one embedding is fed to the acoustic
model to learn the linguistic speaking style, while the other one is integrated
into the vocoder to mimic the target speaker's timbre. Experiments show that by
combining both embeddings, DSE-TTS significantly outperforms the
state-of-the-art SANE-TTS in cross-lingual synthesis, especially in terms of
nativeness.
- Abstract(参考訳): 高忠実度音声は言語内音声合成に利用できるが、話者音色(すなわち話者類似性)を正確に保持し、アクセントを第1言語(すなわちネイティブ性)から排除することが難しいため、言語間テキスト合成(CTTS)は未だに満足できない。
本稿では,ベクトル量子化(vq)音響特徴がメルスペクトログラムよりも話者情報が少ないことを示す。
そこで本研究では,CTTS のための新しい2元話者埋め込み TTS (DSE-TTS) フレームワークを提案する。
ここでは,1つの埋め込みを音響モデルに入力し,発話スタイルを学習し,もう1つの埋め込みをボコーダに統合し,対象話者の音色を模倣する。
両方の埋め込みを組み合わせることで、DSE-TTSは、特にネイティブ性の観点から、言語間合成において最先端のSANE-TTSを著しく上回ることを示した。
関連論文リスト
- Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT [29.167336994990542]
クロス・ディレクト・テキスト・トゥ・スペーチ(CD-TTS)は、非ネイティブ方言における学習された話者の声を合成するタスクである。
本稿では,3つのサブモジュールからなる新しいTSモデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:40:27Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - CrossSpeech: Speaker-independent Acoustic Representation for
Cross-lingual Speech Synthesis [7.6883773606941075]
CrossSpeechは、話者と言語情報を効果的に切り離すことで、言語間音声の品質を向上させる。
実験により,CrossSpeechが言語間TSの大幅な改善を実現することを確認した。
論文 参考訳(メタデータ) (2023-02-28T07:51:10Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。