論文の概要: Low-Resource End-to-end Sanskrit TTS using Tacotron2, WaveGlow and
Transfer Learning
- arxiv url: http://arxiv.org/abs/2212.03558v1
- Date: Wed, 7 Dec 2022 10:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:14:27.342113
- Title: Low-Resource End-to-end Sanskrit TTS using Tacotron2, WaveGlow and
Transfer Learning
- Title(参考訳): Tacotron2, WaveGlow, Transfer Learning を用いた低リソースエンド・ツー・エンドサンスクリットTS
- Authors: Ankur Debnath, Shridevi S Patil, Gangotri Nadiger, Ramakrishnan
Angarai Ganesan
- Abstract要約: 我々は,サンスクリットにおける自然音声を低資源環境下で合成するために,限られたサンスクリットデータを用いた英語事前学習型タコトロン2モデルを微調整した。
実験の結果,サンスクリット語話者37名を対象に,総合的なMOS3.38を達成できた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end text-to-speech (TTS) systems have been developed for European
languages like English and Spanish with state-of-the-art speech quality,
prosody, and naturalness. However, development of end-to-end TTS for Indian
languages is lagging behind in terms of quality. The challenges involved in
such a task are: 1) scarcity of quality training data; 2) low efficiency during
training and inference; 3) slow convergence in the case of large vocabulary
size. In our work reported in this paper, we have investigated the use of
fine-tuning the English-pretrained Tacotron2 model with limited Sanskrit data
to synthesize natural sounding speech in Sanskrit in low resource settings. Our
experiments show encouraging results, achieving an overall MOS of 3.38 from 37
evaluators with good Sanskrit spoken knowledge. This is really a very good
result, considering the fact that the speech data we have used is of duration
2.5 hours only.
- Abstract(参考訳): エンドツーエンドの音声合成システム(TTS: End-to-end text-to-speech)は、英語やスペイン語などのヨーロッパの言語向けに、最先端の音声品質、韻律、自然さで開発された。
しかし、インドの言語用エンドツーエンドTSの開発は品質面で遅れを取っている。
そのようなタスクに関わる課題は次のとおりです。
1) 品質訓練データの不足
2 訓練及び推論における効率の低下
3) 大きな語彙サイズの場合の収束が遅い。
本稿では,サンスクリットにおける自然音声音声を低資源環境下で合成するために,制限されたサンスクリットデータを用いた英語事前学習型タコトロン2モデルの微調整を行った。
実験の結果,サンスクリット語話者37名を対象に,総合的なMOS3.38を達成できた。
使用した音声データが2.5時間しか持たないという事実を考えると、これは本当に良い結果です。
関連論文リスト
- Rapid Speaker Adaptation in Low Resource Text to Speech Systems using
Synthetic Data and Transfer learning [6.544954579068865]
本稿では,高ソース言語データと合成データを用いたトランスファー学習手法を提案する。
我々は、低リソースのインドのヒンディー語で高品質な単一話者TSシステムの訓練に3段階のアプローチを採用する。
論文 参考訳(メタデータ) (2023-12-02T10:52:00Z) - Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models [56.1058530241461]
本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Towards Building Text-To-Speech Systems for the Next Billion Users [18.290165216270452]
そこで我々は,ドラヴィダ語とインド・アーリア語に対する音響モデル,ボコーダ,補足的損失関数,訓練スケジュール,話者および言語多様性の選択について検討した。
我々は,13言語を対象としたTSモデルをトレーニングし,評価し,各言語における既存のモデルを大幅に改善するモデルを見出した。
論文 参考訳(メタデータ) (2022-11-17T13:59:34Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - SANE-TTS: Stable And Natural End-to-End Multilingual Text-to-Speech [0.3277163122167433]
SANE-TTS は安定かつ自然な多言語 TTS モデルである。
言語間合成における音声自然性を改善する話者正規化損失を導入する。
本モデルでは, 音源話者によらず, 適度なリズムの音声を生成する。
論文 参考訳(メタデータ) (2022-06-24T07:53:05Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Byakto Speech: Real-time long speech synthesis with convolutional neural
network: Transfer learning from English to Bangla [0.0]
Byaktaは、音声合成システムへの最初のオープンソースのディープラーニングベースのバイリンガルテキスト(バングラ語と英語)である。
TTSモデルの性能を評価するため,音声認識モデルに基づく自動スコアリング尺度も提案した。
音声品質評価のためのBangla音声合成モデルのためのテストベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-05-31T20:39:35Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。