論文の概要: Revisiting IPA-based Cross-lingual Text-to-speech
- arxiv url: http://arxiv.org/abs/2110.07187v1
- Date: Thu, 14 Oct 2021 07:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 03:29:09.026919
- Title: Revisiting IPA-based Cross-lingual Text-to-speech
- Title(参考訳): IPAに基づく言語間テキスト合成の再検討
- Authors: Haitong Zhang, Yue Lin
- Abstract要約: International Phonetic Alphabet (IPA) は、言語間音声のクローニング(CL VC)を実現するために、TTS (cross-lingual text-to-speech) で広く使われている。
本稿では,IPAを入力として用いた言語間TSモデルの構築に関する実証的な知見を報告する。
実験により、IPAおよび上行シーケンスの処理方法がCLVCのパフォーマンスに無視できる影響があることが示されている。
- 参考スコア(独自算出の注目度): 11.18504333789534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: International Phonetic Alphabet (IPA) has been widely used in cross-lingual
text-to-speech (TTS) to achieve cross-lingual voice cloning (CL VC). However,
IPA itself has been understudied in cross-lingual TTS. In this paper, we report
some empirical findings of building a cross-lingual TTS model using IPA as
inputs. Experiments show that the way to process the IPA and suprasegmental
sequence has a negligible impact on the CL VC performance. Furthermore, we find
that using a dataset including one speaker per language to build an IPA-based
TTS system would fail CL VC since the language-unique IPA and tone/stress
symbols could leak the speaker information. In addition, we experiment with
different combinations of speakers in the training dataset to further
investigate the effect of the number of speakers on the CL VC performance.
- Abstract(参考訳): International Phonetic Alphabet (IPA) は、言語間音声クローニング(CLVC)を実現するために、TTS (inter-lingual text-to-speech) で広く使われている。
しかし、IPA自体が言語間TTSで検討されている。
本稿では,IPAを入力として用いた言語間TSモデルの構築に関する実証的な知見を報告する。
実験により、IPAおよび上行シーケンスの処理方法がCLVCのパフォーマンスに無視できる影響があることが示されている。
さらに、言語単位の話者を含むデータセットを使用してIPAベースのTSシステムを構築すると、言語単位のIPAとトーン/ストレスシンボルが話者情報を漏洩する可能性があるため、CL VCが失敗する可能性がある。
さらに,学習データセットにおける話者の異なる組み合わせを実験し,cl vcのパフォーマンスに対する話者数の影響について検討した。
関連論文リスト
- Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised
representations [27.157701195636477]
ParrotTTSは、モジュール化されたテキスト音声合成モデルである。
単一の話者からの書き起こしを使って、効果的にマルチスピーカーの変種を訓練することができる。
低リソース設定で新しい言語に適応し、自己管理バックボーンのトレーニング中に見えない言語に一般化する。
論文 参考訳(メタデータ) (2023-03-01T17:23:12Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Applying Feature Underspecified Lexicon Phonological Features in
Multilingual Text-to-Speech [1.9688095374610102]
ARPABET/pinyinをSAMPA/SAMPA-SCにマッピングし,音声学的特徴について検討した。
このマッピングは、2つの言語でネイティブ、非ネイティブ、コードスイッチングされたスピーチを成功させるかどうかテストされた。
論文 参考訳(メタデータ) (2022-04-14T21:04:55Z) - Applying Phonological Features in Multilingual Text-To-Speech [2.567123525861164]
ARPABET/pinyinをSAMPA/SAMPA-SCにマッピングし,音声学的特徴について検討した。
このマッピングが、2つの言語でネイティブ、非ネイティブ、コードスイッチトされた音声の生成を成功させるかどうかを検証した。
論文 参考訳(メタデータ) (2021-10-07T16:37:01Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - Mental Workload and Language Production in Non-Native Speaker IPA
Interaction [12.021912017203842]
スマートフォンとスマートスピーカーを介して、ネイティブ(L1)と非ネイティブ(L2)の英語話者がIPAでタスクを完了させる混合設計実験を行った。
IPAの相互作用により,L2話者の心理的負荷が有意に増加した。
論文 参考訳(メタデータ) (2020-06-11T11:06:42Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。