論文の概要: Low-Resource End-to-end Sanskrit TTS using Tacotron2, WaveGlow and
Transfer Learning
- arxiv url: http://arxiv.org/abs/2212.03558v1
- Date: Wed, 7 Dec 2022 10:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:14:27.342113
- Title: Low-Resource End-to-end Sanskrit TTS using Tacotron2, WaveGlow and
Transfer Learning
- Title(参考訳): Tacotron2, WaveGlow, Transfer Learning を用いた低リソースエンド・ツー・エンドサンスクリットTS
- Authors: Ankur Debnath, Shridevi S Patil, Gangotri Nadiger, Ramakrishnan
Angarai Ganesan
- Abstract要約: 我々は,サンスクリットにおける自然音声を低資源環境下で合成するために,限られたサンスクリットデータを用いた英語事前学習型タコトロン2モデルを微調整した。
実験の結果,サンスクリット語話者37名を対象に,総合的なMOS3.38を達成できた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end text-to-speech (TTS) systems have been developed for European
languages like English and Spanish with state-of-the-art speech quality,
prosody, and naturalness. However, development of end-to-end TTS for Indian
languages is lagging behind in terms of quality. The challenges involved in
such a task are: 1) scarcity of quality training data; 2) low efficiency during
training and inference; 3) slow convergence in the case of large vocabulary
size. In our work reported in this paper, we have investigated the use of
fine-tuning the English-pretrained Tacotron2 model with limited Sanskrit data
to synthesize natural sounding speech in Sanskrit in low resource settings. Our
experiments show encouraging results, achieving an overall MOS of 3.38 from 37
evaluators with good Sanskrit spoken knowledge. This is really a very good
result, considering the fact that the speech data we have used is of duration
2.5 hours only.
- Abstract(参考訳): エンドツーエンドの音声合成システム(TTS: End-to-end text-to-speech)は、英語やスペイン語などのヨーロッパの言語向けに、最先端の音声品質、韻律、自然さで開発された。
しかし、インドの言語用エンドツーエンドTSの開発は品質面で遅れを取っている。
そのようなタスクに関わる課題は次のとおりです。
1) 品質訓練データの不足
2 訓練及び推論における効率の低下
3) 大きな語彙サイズの場合の収束が遅い。
本稿では,サンスクリットにおける自然音声音声を低資源環境下で合成するために,制限されたサンスクリットデータを用いた英語事前学習型タコトロン2モデルの微調整を行った。
実験の結果,サンスクリット語話者37名を対象に,総合的なMOS3.38を達成できた。
使用した音声データが2.5時間しか持たないという事実を考えると、これは本当に良い結果です。
関連論文リスト
- BhasaAnuvaad: A Speech Translation Dataset for 13 Indian Languages [27.273651323572786]
インド語における広く使われている自動音声翻訳システムの性能を評価する。
口語と非公式の言語を正確に翻訳できるシステムが存在しないことは顕著である。
BhasaAnuvaadを紹介します。ASTの公開データセットとしては最大で、22のインド言語と英語のうち13が対象です。
論文 参考訳(メタデータ) (2024-11-07T13:33:34Z) - ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams [16.172599163455693]
言語や地理的に関連のある言語からの高品質なデータを活用して、ターゲット言語のためのTSを改善する。
第2に,非スタディオ環境で記録された低品質自動音声認識(ASR)データを利用する。
第3に、より堅牢な出力を生成するために、合成データを用いた大規模モデルからの知識蒸留を適用する。
論文 参考訳(メタデータ) (2024-10-23T14:18:25Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Rapid Speaker Adaptation in Low Resource Text to Speech Systems using
Synthetic Data and Transfer learning [6.544954579068865]
本稿では,高ソース言語データと合成データを用いたトランスファー学習手法を提案する。
我々は、低リソースのインドのヒンディー語で高品質な単一話者TSシステムの訓練に3段階のアプローチを採用する。
論文 参考訳(メタデータ) (2023-12-02T10:52:00Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Byakto Speech: Real-time long speech synthesis with convolutional neural
network: Transfer learning from English to Bangla [0.0]
Byaktaは、音声合成システムへの最初のオープンソースのディープラーニングベースのバイリンガルテキスト(バングラ語と英語)である。
TTSモデルの性能を評価するため,音声認識モデルに基づく自動スコアリング尺度も提案した。
音声品質評価のためのBangla音声合成モデルのためのテストベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-05-31T20:39:35Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。