論文の概要: Byakto Speech: Real-time long speech synthesis with convolutional neural
network: Transfer learning from English to Bangla
- arxiv url: http://arxiv.org/abs/2106.03937v1
- Date: Mon, 31 May 2021 20:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 13:49:35.168250
- Title: Byakto Speech: Real-time long speech synthesis with convolutional neural
network: Transfer learning from English to Bangla
- Title(参考訳): Byakto Speech:畳み込みニューラルネットワークを用いたリアルタイム長音声合成:英語からバングラ語への変換学習
- Authors: Zabir Al Nazi, Sayed Mohammed Tasmimul Huda
- Abstract要約: Byaktaは、音声合成システムへの最初のオープンソースのディープラーニングベースのバイリンガルテキスト(バングラ語と英語)である。
TTSモデルの性能を評価するため,音声認識モデルに基づく自動スコアリング尺度も提案した。
音声品質評価のためのBangla音声合成モデルのためのテストベンチマークデータセットを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech synthesis is one of the challenging tasks to automate by deep
learning, also being a low-resource language there are very few attempts at
Bangla speech synthesis. Most of the existing works can't work with anything
other than simple Bangla characters script, very short sentences, etc. This
work attempts to solve these problems by introducing Byakta, the first-ever
open-source deep learning-based bilingual (Bangla and English) text to a speech
synthesis system. A speech recognition model-based automated scoring metric was
also proposed to evaluate the performance of a TTS model. We also introduce a
test benchmark dataset for Bangla speech synthesis models for evaluating speech
quality. The TTS is available at https://github.com/zabir-nabil/bangla-tts
- Abstract(参考訳): 音声合成はディープラーニングによる自動化が難しい課題の1つであり、低リソース言語であるため、Bangla音声合成の試みはほとんどない。
既存の作品のほとんどは、単純なBangla文字のスクリプトや非常に短い文など以外には使えません。
この研究は、Byaktaというオープンソースのディープラーニングベースのバイリンガルテキストを音声合成システムに導入することで、これらの問題を解決しようとしている。
TTSモデルの性能を評価するため,音声認識モデルに基づく自動スコアリング尺度も提案した。
また,Bangla音声合成モデルを用いた音声品質評価のためのテストベンチマークデータセットも導入した。
TTSはhttps://github.com/zabir-nabil/bangla-tsで利用可能である。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Rapid Speaker Adaptation in Low Resource Text to Speech Systems using
Synthetic Data and Transfer learning [6.544954579068865]
本稿では,高ソース言語データと合成データを用いたトランスファー学習手法を提案する。
我々は、低リソースのインドのヒンディー語で高品質な単一話者TSシステムの訓練に3段階のアプローチを採用する。
論文 参考訳(メタデータ) (2023-12-02T10:52:00Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech
Recognition [60.84668086976436]
教師なし音声合成システム(TTS)は、言語中の任意の文章に対応する音声波形を生成することを学習する。
本稿では、教師なし自動音声認識(ASR)の最近の進歩を活用して、教師なしTSシステムを提案する。
教師なしシステムでは、7つの言語で約10~20時間の音声で教師付きシステムに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-03-29T17:57:53Z) - Voice Cloning: a Multi-Speaker Text-to-Speech Synthesis Approach based
on Transfer Learning [0.802904964931021]
提案手法は,マルチスピーカ音響空間をモデル化可能なシステムを実現するために,これらの制約を克服することを目的としている。
これにより、訓練期間中に観測されていなくても、異なる話者の声に似た音声を生成することができる。
論文 参考訳(メタデータ) (2021-02-10T18:43:56Z) - A Transfer Learning End-to-End ArabicText-To-Speech (TTS) Deep
Architecture [0.0]
既存のアラビア音声合成ソリューションは低品質であり、合成音声の自然性は英語の合成者より劣っている。
この研究は、エンドツーエンドのニューラルネットワークアーキテクチャを用いて、高品質で自然な、人間に似たアラビア語の音声を生成する方法について説明する。
論文 参考訳(メタデータ) (2020-07-22T17:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。