論文の概要: ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus
- arxiv url: http://arxiv.org/abs/2303.00069v1
- Date: Tue, 28 Feb 2023 20:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 16:57:09.553401
- Title: ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus
- Title(参考訳): ClArTTS: オープンソースの古典アラビア語テキスト音声コーパス
- Authors: Ajinkya Kulkarni and Atharva Kulkarni and Sara Abedalmonem Mohammad
Shatnawi and Hanan Aldarmaki
- Abstract要約: 本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
- 参考スコア(独自算出の注目度): 3.1925030748447747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: At present, Text-to-speech (TTS) systems that are trained with high-quality
transcribed speech data using end-to-end neural models can generate speech that
is intelligible, natural, and closely resembles human speech. These models are
trained with relatively large single-speaker professionally recorded audio,
typically extracted from audiobooks. Meanwhile, due to the scarcity of freely
available speech corpora of this kind, a larger gap exists in Arabic TTS
research and development. Most of the existing freely available Arabic speech
corpora are not suitable for TTS training as they contain multi-speaker casual
speech with variations in recording conditions and quality, whereas the corpus
curated for speech synthesis are generally small in size and not suitable for
training state-of-the-art end-to-end models. In a move towards filling this gap
in resources, we present a speech corpus for Classical Arabic Text-to-Speech
(ClArTTS) to support the development of end-to-end TTS systems for Arabic. The
speech is extracted from a LibriVox audiobook, which is then processed,
segmented, and manually transcribed and annotated. The final ClArTTS corpus
contains about 12 hours of speech from a single male speaker sampled at 40100
kHz. In this paper, we describe the process of corpus creation and provide
details of corpus statistics and a comparison with existing resources.
Furthermore, we develop two TTS systems based on Grad-TTS and Glow-TTS and
illustrate the performance of the resulting systems via subjective and
objective evaluations. The corpus will be made publicly available at
www.clartts.com for research purposes, along with the baseline TTS systems
demo.
- Abstract(参考訳): 現在、エンドツーエンドのニューラルモデルを用いて高品質な音声データで訓練されたテキスト音声合成システム(TTS)は、人間の音声に近づきやすく、自然な音声を生成することができる。
これらのモデルは、プロが録音した比較的大きなシングルスピーカーで訓練され、典型的にはオーディオブックから抽出される。
一方、この種の自由な音声コーパスが不足しているため、アラビア語のTTS研究と開発において大きなギャップが存在する。
既存のアラビア語音声コーパスのほとんどは、記録条件と品質の異なるマルチスピーカーカジュアル音声を含むため、TS訓練には適していないが、音声合成のためにキュレートされたコーパスは一般に小さく、最先端モデルの訓練には適していない。
このギャップを埋めるために,古典アラビア語のテキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスを提案し,アラビア語のエンドツーエンドTTSシステムの開発を支援する。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
本稿では,コーパス作成のプロセスについて述べるとともに,コーパス統計と既存資源との比較について述べる。
さらに、Grad-TTSとGlow-TTSに基づく2つのTSシステムを開発し、主観的および客観的評価により結果システムの性能を示す。
コーパスは研究目的でwww.clartts.comで公開され、ベースラインのTSシステムのデモも行われる。
関連論文リスト
- LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning [12.069474749489897]
我々は、LibriTTS-Rに基づく新しいコーパスであるLibriTTS-Pを紹介し、発話スタイルの発話レベル記述(即ち、プロンプト)と話者特性の話者レベルプロンプトを含む。
スタイルキャプションタスクの結果から, LibriTTS-P を用いたモデルは, 従来のデータセットを用いたモデルよりも2.5倍正確な単語を生成することがわかった。
論文 参考訳(メタデータ) (2024-06-12T07:49:21Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Voice Filter: Few-shot text-to-speech speaker adaptation using voice
conversion as a post-processing module [16.369219400819134]
最先端の音声合成システム(TTS)は、高品質な合成音声を生成するために、数時間の音声データを記録する必要がある。
トレーニングデータの量を減らす場合、標準のTSモデルは音声品質と知性劣化に悩まされる。
本稿では,ターゲット話者からの音声を1分以内で処理するVoice Filterという,非常に低リソースなTTS手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T16:12:21Z) - A Transfer Learning End-to-End ArabicText-To-Speech (TTS) Deep
Architecture [0.0]
既存のアラビア音声合成ソリューションは低品質であり、合成音声の自然性は英語の合成者より劣っている。
この研究は、エンドツーエンドのニューラルネットワークアーキテクチャを用いて、高品質で自然な、人間に似たアラビア語の音声を生成する方法について説明する。
論文 参考訳(メタデータ) (2020-07-22T17:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。