論文の概要: NatiQ: An End-to-end Text-to-Speech System for Arabic
- arxiv url: http://arxiv.org/abs/2206.07373v1
- Date: Wed, 15 Jun 2022 08:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 15:22:28.348255
- Title: NatiQ: An End-to-end Text-to-Speech System for Arabic
- Title(参考訳): natiq:アラビア語のエンドツーエンドテキスト合成システム
- Authors: Ahmed Abdelali, Nadir Durrani, Cenk Demiroglu, Fahim Dalvi, Hamdy
Mubarak, Kareem Darwish
- Abstract要約: NatiQはアラビア語のエンドツーエンドのテキスト音声システムである。
音声シンセサイザーは、注意を払ってエンコーダ・デコーダアーキテクチャを使用する。
- 参考スコア(独自算出の注目度): 18.24401058956243
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: NatiQ is end-to-end text-to-speech system for Arabic. Our speech synthesizer
uses an encoder-decoder architecture with attention. We used both
tacotron-based models (tacotron-1 and tacotron-2) and the faster transformer
model for generating mel-spectrograms from characters. We concatenated
Tacotron1 with the WaveRNN vocoder, Tacotron2 with the WaveGlow vocoder and
ESPnet transformer with the parallel wavegan vocoder to synthesize waveforms
from the spectrograms. We used in-house speech data for two voices: 1) neutral
male "Hamza"- narrating general content and news, and 2) expressive female
"Amina"- narrating children story books to train our models. Our best systems
achieve an average Mean Opinion Score (MOS) of 4.21 and 4.40 for Amina and
Hamza respectively. The objective evaluation of the systems using word and
character error rate (WER and CER) as well as the response time measured by
real-time factor favored the end-to-end architecture ESPnet. NatiQ demo is
available on-line at https://tts.qcri.org
- Abstract(参考訳): NatiQはアラビア語のエンドツーエンドのテキスト音声システムである。
音声シンセサイザはエンコーダ-デコーダアーキテクチャに注意を向けて使用する。
タコトロン系モデル(タコトロン-1とタコトロン-2)とより高速なトランスフォーマーモデルを用いてメルスペクトログラムを生成する。
我々は、tacotron1とwavernn vocoder、tacotron2とwaveglow vocoder、espnet transformerを並列wavegan vocoderで結合し、スペクトログラムから波形を合成した。
室内音声データを2つの音声に使用した。
1)中性男性「ハムザ」-一般内容とニュースを語り、
2)表現力のある女性「あみな」-子どもの物語を語り、モデルを訓練する。
ベストシステムは平均平均オピニオンスコア(MOS)をAminaとHamzaそれぞれ4.21と4.40と達成している。
単語および文字誤り率(werおよびcer)を用いたシステムの客観的評価と、リアルタイム要因による応答時間の測定は、エンドツーエンドアーキテクチャespnetを好んだ。
natiqのデモがhttps://tts.qcri.orgで利用可能
関連論文リスト
- TacoLM: GaTed Attention Equipped Codec Language Model are Efficient Zero-Shot Text to Speech Synthesizers [8.485772660435464]
我々は,新しいニューラルLM,すなわちTacoLMを導入する。
TacoLMは、トレーニングと推論効率を改善するために、ゲートアテンションメカニズムを導入している。
TacoLMは、VALL-Eと比較して、単語エラー率、話者類似度、平均評価スコアが90%少なく、5.2倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-06-22T06:39:52Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - On-device neural speech synthesis [3.716815259884143]
TacotronとWaveRNNは、完全なニューラルネットワークベースのTSシステムの構築を可能にした。
我々は、これらのモデルをGPUサーバやモバイルデバイスにデプロイするための重要なモデリング改善と最適化戦略を示す。
提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで,高品質な24kHz音声を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T18:31:31Z) - Audio Captioning Transformer [44.68751180694813]
音声キャプションは、音声クリップの自然言語記述を自動的に生成することを目的としている。
ほとんどのキャプションモデルはエンコーダ-デコーダアーキテクチャに従っており、デコーダはエンコーダによって抽出された音声特徴に基づいて単語を予測する。
本稿では,エンコーダデコーダアーキテクチャに基づくフルトランスフォーマネットワークであるAudio Captioning Transformer (ACT)を提案する。
論文 参考訳(メタデータ) (2021-07-21T00:31:50Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features [1.6286844497313562]
ストレス音節とピッチアクセントの2つの基本的な韻律的特徴から,Tacotron-2をコンディショニングする戦略を提案する。
本研究では,プリエンコーダとイントラデコーダの段階での協調条件が自然合成音声に結びつくことを示した。
論文 参考訳(メタデータ) (2021-04-08T20:50:15Z) - What all do audio transformer models hear? Probing Acoustic
Representations for Language Delivery and its Structure [64.54208910952651]
オーディオトランスフォーマーモデル mockingjay と wave2vec2.0 を比較した。
音声モデルのテキスト表面、構文、および意味的特徴に対する理解を調査します。
ネイティブ、非ネイティブ、合成、読み取り、自発的な音声データセットの完全な設定でこれを行います。
論文 参考訳(メタデータ) (2021-01-02T06:29:12Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z) - A Transfer Learning End-to-End ArabicText-To-Speech (TTS) Deep
Architecture [0.0]
既存のアラビア音声合成ソリューションは低品質であり、合成音声の自然性は英語の合成者より劣っている。
この研究は、エンドツーエンドのニューラルネットワークアーキテクチャを用いて、高品質で自然な、人間に似たアラビア語の音声を生成する方法について説明する。
論文 参考訳(メタデータ) (2020-07-22T17:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。