論文の概要: One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech
- arxiv url: http://arxiv.org/abs/2008.00768v1
- Date: Mon, 3 Aug 2020 10:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:06:29.565005
- Title: One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech
- Title(参考訳): 言語モデルと多言語:多言語テキスト音声のためのメタラーニング
- Authors: Tom\'a\v{s} Nekvinda and Ond\v{r}ej Du\v{s}ek
- Abstract要約: 本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案する。
本モデルでは,言語間で効率的に情報を共有できることが示され,主観的評価テストにより,ベースラインよりも自然な,正確なコードスイッチング音声を生成する。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce an approach to multilingual speech synthesis which uses the
meta-learning concept of contextual parameter generation and produces
natural-sounding multilingual speech using more languages and less training
data than previous approaches. Our model is based on Tacotron 2 with a fully
convolutional input text encoder whose weights are predicted by a separate
parameter generator network. To boost voice cloning, the model uses an
adversarial speaker classifier with a gradient reversal layer that removes
speaker-specific information from the encoder.
We arranged two experiments to compare our model with baselines using various
levels of cross-lingual parameter sharing, in order to evaluate: (1) stability
and performance when training on low amounts of data, (2) pronunciation
accuracy and voice quality of code-switching synthesis. For training, we used
the CSS10 dataset and our new small dataset based on Common Voice recordings in
five languages. Our model is shown to effectively share information across
languages and according to a subjective evaluation test, it produces more
natural and accurate code-switching speech than the baselines.
- Abstract(参考訳): 本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案し,従来の手法よりも多くの言語と少ない訓練データを用いて自然発声多言語音声を生成する。
本モデルでは,完全畳み込み入力テキストエンコーダを持つtacotron 2をベースとし,パラメータ生成ネットワークによって重みが予測される。
音声のクローニングを促進するために、エンコーダから話者固有の情報を除去する勾配反転層を備えた対向話者分類器を使用する。
我々は,(1)低量のデータを用いたトレーニングにおける安定性と性能,(2)コードスイッチング合成における発音精度と音声品質の2つの実験を,言語間パラメータ共有の様々なレベルを用いてベースラインと比較して評価した。
トレーニングには、css10データセットと、5つの言語で共通の音声記録に基づいた新しい小さなデータセットを使用しました。
本モデルは,言語間情報を効果的に共有することを示し,主観的評価テストにより,ベースラインよりも自然で正確なコード交換音声を生成する。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - MulliVC: Multi-lingual Voice Conversion With Cycle Consistency [75.59590240034261]
MulliVCは、音色のみを変換し、多言語ペアリングデータなしでオリジナルコンテンツとソースコードの韻律を保持する新しい音声変換システムである。
目的と主観の両方の結果から,MulliVCはモノリンガルとクロスリンガルの両方の文脈において,他の手法をはるかに上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-08-08T18:12:51Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Cross-lingual Knowledge Distillation via Flow-based Voice Conversion for
Robust Polyglot Text-To-Speech [6.243356997302935]
本稿では、上流音声変換(VC)モデルと下流音声合成(TTS)モデルを含む、言語間音声合成のためのフレームワークを提案する。
最初の2段階では、VCモデルを用いてターゲット話者の発話をターゲット話者の声に変換する。
第3段階では、変換されたデータは、対象言語における記録からの言語的特徴や持続時間と組み合わせられ、単一話者音響モデルの訓練に使用される。
論文 参考訳(メタデータ) (2023-09-15T09:03:14Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Scaling Up Deliberation for Multilingual ASR [36.860327600638705]
多言語音声認識のための第2パス検討について検討する。
テキストエンコーダは複数の言語からの仮説テキストをエンコードし,デコーダは多言語テキストと音声に付随する。
検討の結果,9言語の平均 WER はシングルパスモデルと比較して4% 向上していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T21:07:00Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。