論文の概要: Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features
- arxiv url: http://arxiv.org/abs/2111.09075v1
- Date: Wed, 17 Nov 2021 12:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 14:19:08.111215
- Title: Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features
- Title(参考訳): 音韻特徴を用いた言語間低リソース話者適応
- Authors: Georgia Maniati, Nikolaos Ellinas, Konstantinos Markopoulos, Georgios
Vamvoukakis, June Sig Sung, Hyoungmin Park, Aimilios Chalamandaris and Pirros
Tsiakoulis
- Abstract要約: 我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
- 参考スコア(独自算出の注目度): 2.8080708404213373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The idea of using phonological features instead of phonemes as input to
sequence-to-sequence TTS has been recently proposed for zero-shot multilingual
speech synthesis. This approach is useful for code-switching, as it facilitates
the seamless uttering of foreign text embedded in a stream of native text. In
our work, we train a language-agnostic multispeaker model conditioned on a set
of phonologically derived features common across different languages, with the
goal of achieving cross-lingual speaker adaptation. We first experiment with
the effect of language phonological similarity on cross-lingual TTS of several
source-target language combinations. Subsequently, we fine-tune the model with
very limited data of a new speaker's voice in either a seen or an unseen
language, and achieve synthetic speech of equal quality, while preserving the
target speaker's identity. With as few as 32 and 8 utterances of target speaker
data, we obtain high speaker similarity scores and naturalness comparable to
the corresponding literature. In the extreme case of only 2 available
adaptation utterances, we find that our model behaves as a few-shot learner, as
the performance is similar in both the seen and unseen adaptation language
scenarios.
- Abstract(参考訳): 連続列 tts への入力として音素の代わりに音韻的特徴を用いるという考えは、最近、ゼロショット多言語音声合成のために提案されている。
このアプローチは、ネイティブテキストストリームに埋め込まれた外部テキストのシームレスな発話を容易にするため、コードスイッチングに有用である。
本研究では,異なる言語に共通する音韻的特徴の集合に基づいて,言語に依存しない多話者モデルを訓練し,言語間話者適応の実現を目指す。
我々はまず,言語音韻的類似性が複数のソース・ターゲット言語の組み合わせの言語間TSに与える影響を実験した。
その後、視聴覚言語または未認識言語において、新たな話者の声の非常に限られたデータを用いてモデルを微調整し、対象話者のアイデンティティを保ちながら、等質の合成音声を実現する。
対象話者データの32発話と8発話を数えることで、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
2つの適応発話しか利用できない極端なケースでは、我々のモデルは、一見の適応言語シナリオと未認識の適応言語シナリオの両方において、パフォーマンスが似ているため、少数の学習者として振る舞うことが分かりました。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Cross-lingual Text-To-Speech with Flow-based Voice Conversion for
Improved Pronunciation [11.336431583289382]
本稿では,エンドツーエンドの言語間テキスト合成手法を提案する。
本来の話者の言語によらず、対象言語の発音を維持することを目的としている。
論文 参考訳(メタデータ) (2022-10-31T12:44:53Z) - Cross-Lingual Text-to-Speech Using Multi-Task Learning and Speaker
Classifier Joint Training [6.256271702518489]
言語間音声合成では、モノグロット話者に対して様々な言語の音声を合成することができる。
本稿では,言語間話者類似性を改善するためのマルチタスク学習フレームワークについて検討する。
論文 参考訳(メタデータ) (2022-01-20T12:02:58Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Improve Cross-lingual Voice Cloning Using Low-quality Code-switched Data [11.18504333789534]
そこで本研究では,非対象話者からの低品質なコード切替データを用いて,対象話者に対する言語間音声のクローニングを実現することを提案する。
実験により,提案手法は,自然性と話者の整合性の両面から,目標音声における高品質なコードスイッチ音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2021-10-14T08:16:06Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。