論文の概要: Code-Mixed Text to Speech Synthesis under Low-Resource Constraints
- arxiv url: http://arxiv.org/abs/2312.01103v1
- Date: Sat, 2 Dec 2023 10:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 19:03:29.091250
- Title: Code-Mixed Text to Speech Synthesis under Low-Resource Constraints
- Title(参考訳): 低リソース制約下での音声合成のための符号混合テキスト
- Authors: Raviraj Joshi, Nikesh Garera
- Abstract要約: 本稿では,eコマースアプリケーション向けに構築されたHindi-English TTSシステムについて述べる。
本稿では,個々の言語におけるモノリンガルデータセットを利用したデータ指向手法を提案する。
純粋なコード混在テストセットでは、コード混在のない単一のスクリプトバイランガルトレーニングが有効であることを示す。
- 参考スコア(独自算出の注目度): 6.544954579068865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-speech (TTS) systems are an important component in voice-based
e-commerce applications. These applications include end-to-end voice assistant
and customer experience (CX) voice bot. Code-mixed TTS is also relevant in
these applications since the product names are commonly described in English
while the surrounding text is in a regional language. In this work, we describe
our approaches for production quality code-mixed Hindi-English TTS systems
built for e-commerce applications. We propose a data-oriented approach by
utilizing monolingual data sets in individual languages. We leverage a
transliteration model to convert the Roman text into a common Devanagari script
and then combine both datasets for training. We show that such single script
bi-lingual training without any code-mixing works well for pure code-mixed test
sets. We further present an exhaustive evaluation of single-speaker adaptation
and multi-speaker training with Tacotron2 + Waveglow setup to show that the
former approach works better. These approaches are also coupled with transfer
learning and decoder-only fine-tuning to improve performance. We compare these
approaches with the Google TTS and report a positive CMOS score of 0.02 with
the proposed transfer learning approach. We also perform low-resource voice
adaptation experiments to show that a new voice can be onboarded with just 3
hrs of data. This highlights the importance of our pre-trained models in
resource-constrained settings. This subjective evaluation is performed on a
large number of out-of-domain pure code-mixed sentences to demonstrate the high
quality of the systems.
- Abstract(参考訳): テキスト音声(TTS)システムは音声ベースのeコマースアプリケーションにおいて重要なコンポーネントである。
これらのアプリケーションには、エンドツーエンド音声アシスタントとカスタマエクスペリエンス(CX)音声ボットが含まれる。
コードミキシングTSは、製品名が英語で一般的に説明されるのに対して、周辺テキストは地域言語であるので、これらのアプリケーションにも関係がある。
本稿では,eコマースアプリケーション向けに構築されたHindi-English TTSシステムを用いて,生産品質のコードミキシングを行う手法について述べる。
本稿では,個別言語における単言語データを用いたデータ指向アプローチを提案する。
翻訳モデルを利用してローマ語のテキストを共通のDevanagariスクリプトに変換し、両方のデータセットを組み合わせてトレーニングします。
純粋なコード混合テストセットでは,コード混合を行わない単一スクリプトバイリンガルトレーニングがうまく機能することを示す。
さらに,tacotron2+waveglowによる単一話者適応とマルチ話者訓練の徹底的な評価を行い,前者のアプローチがよりうまく機能することを示す。
これらのアプローチは、転送学習とデコーダのみの微調整と組み合わせてパフォーマンスを向上させる。
これらの手法を Google TTS と比較し,提案手法と比較して 0.02 の正のCMOSスコアを報告した。
また、低リソースの音声適応実験を行い、新しい音声をわずか3時間のデータでオンボードできることを示した。
これは、リソース制約設定における事前トレーニングされたモデルの重要性を強調します。
この主観的評価は、システムの品質を示すために、多数のドメイン外の純粋なコード混合文上で実行される。
関連論文リスト
- Rapid Speaker Adaptation in Low Resource Text to Speech Systems using
Synthetic Data and Transfer learning [6.544954579068865]
本稿では,高ソース言語データと合成データを用いたトランスファー学習手法を提案する。
我々は、低リソースのインドのヒンディー語で高品質な単一話者TSシステムの訓練に3段階のアプローチを採用する。
論文 参考訳(メタデータ) (2023-12-02T10:52:00Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Low-Resource Multilingual and Zero-Shot Multispeaker TTS [25.707717591185386]
5分間のトレーニングデータを用いて,新しい言語を学習することが可能であることを示す。
提案手法を,対象話者との親密性,自然性,類似性の観点から示す。
論文 参考訳(メタデータ) (2022-10-21T20:03:37Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech [3.42658286826597]
本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案する。
本モデルでは,言語間で効率的に情報を共有できることが示され,主観的評価テストにより,ベースラインよりも自然な,正確なコードスイッチング音声を生成する。
論文 参考訳(メタデータ) (2020-08-03T10:43:30Z) - IIT Gandhinagar at SemEval-2020 Task 9: Code-Mixed Sentiment
Classification Using Candidate Sentence Generation and Selection [1.2301855531996841]
コードミキシングは、非標準の書き込みスタイルのためにテキストの感情を分析することの難しさを増す。
本稿では,Bi-LSTMに基づくニューラル分類器上での文生成と選択に基づく提案手法を提案する。
提案手法は,Bi-LSTMに基づくニューラル分類器と比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2020-06-25T14:59:47Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。