Fugu-MT 論文翻訳(概要): Phonological Features for 0-shot Multilingual Speech Synthesis

論文の概要: Phonological Features for 0-shot Multilingual Speech Synthesis

arxiv url: http://arxiv.org/abs/2008.04107v1
Date: Thu, 6 Aug 2020 18:25:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-02 08:09:40.199815
Title: Phonological Features for 0-shot Multilingual Speech Synthesis
Title（参考訳）: ゼロショット多言語音声合成のための音韻特徴
Authors: Marlene Staib (1), Tian Huey Teh (1), Alexandra Torresquintero (1), Devang S Ram Mohan (1), Lorenzo Foglianti (1), Raphael Lenain (2), Jiameng Gao (1) ((1) Papercup Technologies Ltd., (2) Novoic)
Abstract要約: 単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
参考スコア（独自算出の注目度）: 50.591267188664666
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code-switching---the intra-utterance use of multiple languages---is prevalent across the world. Within text-to-speech (TTS), multilingual models have been found to enable code-switching. By modifying the linguistic input to sequence-to-sequence TTS, we show that code-switching is possible for languages unseen during training, even within monolingual models. We use a small set of phonological features derived from the International Phonetic Alphabet (IPA), such as vowel height and frontness, consonant place and manner. This allows the model topology to stay unchanged for different languages, and enables new, previously unseen feature combinations to be interpreted by the model. We show that this allows us to generate intelligible, code-switched speech in a new language at test time, including the approximation of sounds never seen in training.
Abstract（参考訳）: コードスイッチング(Code-switching) - 複数の言語の発話内使用。 TTS(text-to-speech)では、コードスイッチングを可能にする多言語モデルが発見されている。言語入力をシーケンス・ツー・シーケンス TTS に変更することにより,単言語モデルにおいてもトレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。我々は,母音の高さや正面,子音の場所,態度など,国際音声アルファベット(IPA)から派生した音韻学的特徴の小さなセットを用いる。これにより、モデルトポロジは異なる言語で変更されず、新しい、以前は見つからなかった機能の組み合わせをモデルによって解釈できる。これにより、トレーニングで見ることのない音の近似を含む、テスト時に新しい言語で理解可能なコード切り換え音声を生成することができる。

関連論文リスト

Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation [18.89091877062589]
LanStyleTTS は非自己回帰型言語対応の適応型 TTS フレームワークである。言語固有のモデルを訓練することなく、正確で高品質な音声を生成することができる統合多言語TSモデルをサポートしている。
論文参考訳（メタデータ） (2025-04-11T06:12:57Z)
Indonesian-English Code-Switching Speech Synthesizer Utilizing Multilingual STEN-TTS and Bert LID [8.470658879969053]
本研究は、STEN-TTSにおけるインドネシア英語のコードスイッチングに対処する。主な変更点は、テキストから音素への変換に言語識別コンポーネントを追加することである。実験結果から, コードスイッチングモデルにより, 自然性が向上し, 音声の明瞭度が向上することが示唆された。
論文参考訳（メタデータ） (2024-12-26T03:37:40Z)
A two-stage transliteration approach to improve performance of a multilingual ASR [1.9511556030544333]
本稿では,言語に依存しないエンドツーエンドモデルを構築するためのアプローチを提案する。我々は2つのIndic言語に対するエンドツーエンドの多言語音声認識システムを用いて実験を行った。
論文参考訳（メタデータ） (2024-10-09T05:30:33Z)
Adapting the adapters for code-switching in multilingual ASR [10.316724084739892]
訓練済みの大規模多言語音声モデルは、多くの低リソース言語に自動音声認識を拡張できる可能性を示している。これらのモデルのいくつかは、言語アダプタを定式化に用い、モノリンガルのパフォーマンスを改善するのに役立つ。この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。提案手法は,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同調することにより,コード切替音声上でそのようなモデルを効果的に微調整する方法である。
論文参考訳（メタデータ） (2023-10-11T12:15:24Z)
MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文参考訳（メタデータ） (2023-05-19T13:43:36Z)
Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。 VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文参考訳（メタデータ） (2023-03-07T14:31:55Z)
Language-agnostic Code-Switching in Sequence-To-Sequence Speech Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文参考訳（メタデータ） (2022-10-17T12:15:57Z)
LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文参考訳（メタデータ） (2022-06-05T04:03:12Z)
Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。 XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文参考訳（メタデータ） (2021-02-16T18:47:10Z)
Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文参考訳（メタデータ） (2020-05-21T03:03:34Z)
That Sounds Familiar: an Analysis of Phonetic Representations Transfer Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文参考訳（メタデータ） (2020-05-16T22:28:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。