論文の概要: Phonological Features for 0-shot Multilingual Speech Synthesis
- arxiv url: http://arxiv.org/abs/2008.04107v1
- Date: Thu, 6 Aug 2020 18:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 08:09:40.199815
- Title: Phonological Features for 0-shot Multilingual Speech Synthesis
- Title(参考訳): ゼロショット多言語音声合成のための音韻特徴
- Authors: Marlene Staib (1), Tian Huey Teh (1), Alexandra Torresquintero (1),
Devang S Ram Mohan (1), Lorenzo Foglianti (1), Raphael Lenain (2), Jiameng
Gao (1) ((1) Papercup Technologies Ltd., (2) Novoic)
- Abstract要約: 単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
- 参考スコア(独自算出の注目度): 50.591267188664666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-switching---the intra-utterance use of multiple languages---is prevalent
across the world. Within text-to-speech (TTS), multilingual models have been
found to enable code-switching. By modifying the linguistic input to
sequence-to-sequence TTS, we show that code-switching is possible for languages
unseen during training, even within monolingual models. We use a small set of
phonological features derived from the International Phonetic Alphabet (IPA),
such as vowel height and frontness, consonant place and manner. This allows the
model topology to stay unchanged for different languages, and enables new,
previously unseen feature combinations to be interpreted by the model. We show
that this allows us to generate intelligible, code-switched speech in a new
language at test time, including the approximation of sounds never seen in
training.
- Abstract(参考訳): コードスイッチング(Code-switching) - 複数の言語の発話内使用。
TTS(text-to-speech)では、コードスイッチングを可能にする多言語モデルが発見されている。
言語入力をシーケンス・ツー・シーケンス TTS に変更することにより,単言語モデルにおいてもトレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
我々は,母音の高さや正面,子音の場所,態度など,国際音声アルファベット(IPA)から派生した音韻学的特徴の小さなセットを用いる。
これにより、モデルトポロジは異なる言語で変更されず、新しい、以前は見つからなかった機能の組み合わせをモデルによって解釈できる。
これにより、トレーニングで見ることのない音の近似を含む、テスト時に新しい言語で理解可能なコード切り換え音声を生成することができる。
関連論文リスト
- A two-stage transliteration approach to improve performance of a multilingual ASR [1.9511556030544333]
本稿では,言語に依存しないエンドツーエンドモデルを構築するためのアプローチを提案する。
我々は2つのIndic言語に対するエンドツーエンドの多言語音声認識システムを用いて実験を行った。
論文 参考訳(メタデータ) (2024-10-09T05:30:33Z) - Adapting the adapters for code-switching in multilingual ASR [10.316724084739892]
訓練済みの大規模多言語音声モデルは、多くの低リソース言語に自動音声認識を拡張できる可能性を示している。
これらのモデルのいくつかは、言語アダプタを定式化に用い、モノリンガルのパフォーマンスを改善するのに役立つ。
この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。
提案手法は,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同調することにより,コード切替音声上でそのようなモデルを効果的に微調整する方法である。
論文 参考訳(メタデータ) (2023-10-11T12:15:24Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。