論文の概要: Low-Resource Multilingual and Zero-Shot Multispeaker TTS
- arxiv url: http://arxiv.org/abs/2210.12223v1
- Date: Fri, 21 Oct 2022 20:03:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:50:44.761246
- Title: Low-Resource Multilingual and Zero-Shot Multispeaker TTS
- Title(参考訳): 低リソースマルチリンガルおよびゼロショットマルチスピーカtts
- Authors: Florian Lux, Julia Koch, Ngoc Thang Vu
- Abstract要約: 5分間のトレーニングデータを用いて,新しい言語を学習することが可能であることを示す。
提案手法を,対象話者との親密性,自然性,類似性の観点から示す。
- 参考スコア(独自算出の注目度): 25.707717591185386
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While neural methods for text-to-speech (TTS) have shown great advances in
modeling multiple speakers, even in zero-shot settings, the amount of data
needed for those approaches is generally not feasible for the vast majority of
the world's over 6,000 spoken languages. In this work, we bring together the
tasks of zero-shot voice cloning and multilingual low-resource TTS. Using the
language agnostic meta learning (LAML) procedure and modifications to a TTS
encoder, we show that it is possible for a system to learn speaking a new
language using just 5 minutes of training data while retaining the ability to
infer the voice of even unseen speakers in the newly learned language. We show
the success of our proposed approach in terms of intelligibility, naturalness
and similarity to target speaker using objective metrics as well as human
studies and provide our code and trained models open source.
- Abstract(参考訳): tts(text-to-speech)のニューラルメソッドは、ゼロショット設定でさえも、複数の話者をモデリングする上で大きな進歩を示しているが、これらのアプローチに必要なデータ量は、全世界の6,000以上の言語で一般的には実現不可能である。
本稿では,ゼロショット音声クローンと多言語低リソースttsの課題をまとめる。
言語依存型メタ学習(laml)の手順とttsエンコーダへの修正を用いることで,新たに学習した言語における未知の話者の声を推測する能力を保ちつつ,わずか5分間のトレーニングデータを用いて新たな言語を学習できることを示す。
提案手法の成功を,客観的な指標と人的学習を用いて,対象話者に対する知性,自然性,類似性の観点から示し,オープンソースでコードと訓練されたモデルを提供する。
関連論文リスト
- A multilingual training strategy for low resource Text to Speech [5.109810774427171]
ソーシャルメディアからのデータを、小さなTSデータセット構築に利用することができるか、また、言語間移動学習がこの種のデータに有効かどうかを検討する。
そこで本稿では,対象とする低リソース言語に対するTSモデルをトレーニングするために,外国語からのデータをどのように選択し,プールするかを検討する。
以上の結果から,多言語事前学習は単言語事前学習よりも,生成した音声の明瞭さと自然性を高めることが示唆された。
論文 参考訳(メタデータ) (2024-09-02T12:53:01Z) - Meta Learning Text-to-Speech Synthesis in over 7000 Languages [29.17020696379219]
本研究では,7000以上の言語で音声を生成できる1つの音声合成システムを構築する上で,課題に取り組む。
本手法は,多言語事前学習とメタラーニングの新たな統合を活用することで,ゼロショット音声合成を利用可能なデータを持たない言語で実現する。
我々は,限られた言語資源を持つコミュニティの活性化と,音声技術分野におけるさらなるイノベーションの育成を目指している。
論文 参考訳(メタデータ) (2024-06-10T15:56:52Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice
Conversion for everyone [0.7927630381442314]
YourTTSは、ゼロショットマルチスピーカーTSのタスクに多言語アプローチのパワーをもたらす。
我々は、VCTKデータセット上のゼロショット音声変換において、ゼロショットマルチスピーカTSとSOTAに匹敵する結果を得る。
1分未満の音声でYourTTSモデルを微調整し、最先端の結果を音声に類似し、妥当な品質で達成することが可能である。
論文 参考訳(メタデータ) (2021-12-04T19:50:29Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。