論文の概要: A Transfer Learning End-to-End ArabicText-To-Speech (TTS) Deep
Architecture
- arxiv url: http://arxiv.org/abs/2007.11541v1
- Date: Wed, 22 Jul 2020 17:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 23:38:52.074225
- Title: A Transfer Learning End-to-End ArabicText-To-Speech (TTS) Deep
Architecture
- Title(参考訳): 翻訳学習によるアラビア語テキスト音声(TTS)深層構造
- Authors: Fady Fahmy, Mahmoud Khalil, Hazem Abbas
- Abstract要約: 既存のアラビア音声合成ソリューションは低品質であり、合成音声の自然性は英語の合成者より劣っている。
この研究は、エンドツーエンドのニューラルネットワークアーキテクチャを用いて、高品質で自然な、人間に似たアラビア語の音声を生成する方法について説明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech synthesis is the artificial production of human speech. A typical
text-to-speech system converts a language text into a waveform. There exist
many English TTS systems that produce mature, natural, and human-like speech
synthesizers. In contrast, other languages, including Arabic, have not been
considered until recently. Existing Arabic speech synthesis solutions are slow,
of low quality, and the naturalness of synthesized speech is inferior to the
English synthesizers. They also lack essential speech key factors such as
intonation, stress, and rhythm. Different works were proposed to solve those
issues, including the use of concatenative methods such as unit selection or
parametric methods. However, they required a lot of laborious work and domain
expertise. Another reason for such poor performance of Arabic speech
synthesizers is the lack of speech corpora, unlike English that has many
publicly available corpora and audiobooks. This work describes how to generate
high quality, natural, and human-like Arabic speech using an end-to-end neural
deep network architecture. This work uses just $\langle$ text, audio $\rangle$
pairs with a relatively small amount of recorded audio samples with a total of
2.41 hours. It illustrates how to use English character embedding despite using
diacritic Arabic characters as input and how to preprocess these audio samples
to achieve the best results.
- Abstract(参考訳): 音声合成は人間の音声の人工的な生成である。
典型的なテキスト対音声システムは、言語テキストを波形に変換する。
英語のttsシステムは、成熟、自然、人間に似た音声合成器を生産する。
対照的に、アラビア語を含む他の言語は近年まで検討されていない。
既存のアラビア語音声合成ソリューションは低品質であり、合成音声の自然性は英語合成システムよりも劣っている。
また、イントネーション、ストレス、リズムといった重要な音声要素が欠如している。
これらの問題を解決するために、単体選択やパラメトリックメソッドのようなコンカレントメソッドの使用など、さまざまな研究が提案された。
しかし、彼らは多くの努力とドメインの専門知識を必要とした。
アラビア語の音声シンセサイザーのパフォーマンスが低かったもう一つの理由は、多くの公的なコーパスやオーディオブックを持つ英語とは異なり、音声コーパスの欠如である。
本稿では,エンド・ツー・エンドのニューラルネットワークアーキテクチャを用いて,高品質,自然,人間に似たアラビア語音声を生成する方法について述べる。
この作品は、わずか$\langle$テキストと$\rangle$ペアを使っており、録音されたオーディオサンプルは2.41時間で比較的少ない。
ダイアクリティカルなアラビア文字を入力として用いながら、英語の文字埋め込みの使い方と、これらのオーディオサンプルを前処理して最良の結果を得る方法を説明する。
関連論文リスト
- Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage [7.096838107088313]
DisfluencySpeechは、パラ言語でラベル付けされた英語の音声データセットである。
Switchboard-1 電話音声コーパス(Switchboard)から10時間近い表現的発話を再現する1つの話者
論文 参考訳(メタデータ) (2024-06-13T05:23:22Z) - HierSpeech++: Bridging the Gap between Semantic and Acoustic
Representation of Speech by Hierarchical Variational Inference for Zero-shot
Speech Synthesis [39.892633589217326]
大規模言語モデル(LLM)に基づく音声合成は、ゼロショット音声合成において広く採用されている。
テキスト音声変換(TTS)と音声変換(VC)のための高速で強力なゼロショット音声合成器であるHierSpeech++を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:07:11Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Byakto Speech: Real-time long speech synthesis with convolutional neural
network: Transfer learning from English to Bangla [0.0]
Byaktaは、音声合成システムへの最初のオープンソースのディープラーニングベースのバイリンガルテキスト(バングラ語と英語)である。
TTSモデルの性能を評価するため,音声認識モデルに基づく自動スコアリング尺度も提案した。
音声品質評価のためのBangla音声合成モデルのためのテストベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-05-31T20:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。