論文の概要: Arabic Text-To-Speech (TTS) Data Preparation
- arxiv url: http://arxiv.org/abs/2204.03255v1
- Date: Thu, 7 Apr 2022 06:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-09 03:26:37.055891
- Title: Arabic Text-To-Speech (TTS) Data Preparation
- Title(参考訳): アラビア文字音声(TTS)データ作成
- Authors: Hala Al Masri, Muhy Eddin Za'ter
- Abstract要約: Text-to-Speech (TTS)は、TSモジュールの結果に大きな影響を与える可能性があるため、記録データに大きく依存する。
品質と振舞いを考慮した異なる記録方法もまた、モジュールの開発において有利である。
本研究の目的は, 自然性, 知性, 理解の両面での音声システムの進化に, 地道的発話がどのような影響を及ぼすかを明らかにすることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People may be puzzled by the fact that voice over recordings data sets exist
in addition to Text-to-Speech (TTS), Synthesis system advancements, albeit this
is not the case. The goal of this study is to explain the relevance of TTS as
well as the data preparation procedures. TTS relies heavily on recorded data
since it can have a substantial influence on the outcomes of TTS modules.
Furthermore, whether the domain is specialized or general, appropriate data
should be developed to address all predicted language variants and domains.
Different recording methodologies, taking into account quality and behavior,
may also be advantageous in the development of the module. In light of the lack
of Arabic language in present synthesizing systems, numerous variables that
impact the flow of recorded utterances are being considered in order to
manipulate an Arabic TTS module. In this study, two viewpoints will be
discussed: linguistics and the creation of high-quality recordings for TTS. The
purpose of this work is to offer light on how ground-truth utterances may
influence the evolution of speech systems in terms of naturalness,
intelligibility, and understanding. Well provide voice actor specs as well as
data specs that will assist both voice actors and voice coaches in the studio
as well as the annotators who will be evaluating the audios.
- Abstract(参考訳): テキスト音声合成(TTS, Text-to-Speech)に加えて、録音データセットの音声が存在しているという事実に、人々は困惑するかもしれない。
本研究の目的は,TTSとデータ作成手順の関連性を説明することである。
TTSは、TSモジュールの結果に大きな影響を与える可能性があるため、記録データに大きく依存する。
さらに、ドメインが特殊であるか一般であるかにかかわらず、予測されるすべての言語変種やドメインに対応する適切なデータを開発する必要がある。
品質と振舞いを考慮した異なる記録方法もまた、モジュールの開発において有利である。
現在の合成システムにおけるアラビア語の欠如を踏まえ、記録された発話の流れに影響を与える多くの変数が、アラビア語のTSモジュールを操作するために検討されている。
本研究では,言語学とTTSのための高品質記録の作成という2つの視点について論じる。
本研究の目的は, 自然性, 知性, 理解の両面から, 音声システムの進化にどのような影響があるかを明らかにすることである。
音声俳優のスペックだけでなく、スタジオの音声俳優と音声コーチ、そして音声の評価を行う注釈家の両方を支援するデータスペックも提供します。
関連論文リスト
- Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - UnifySpeech: A Unified Framework for Zero-shot Text-to-Speech and Voice
Conversion [63.346825713704625]
テキスト音声変換(TTS, Text-to-Speech)と音声変換(VC)は2つの異なるタスクであり, 音質の異なる音質で音声を合成することを目的としている。
本稿では,TSとVCを統合フレームワークに初めて導入するUnifySpeechを提案する。
論文 参考訳(メタデータ) (2023-01-10T06:06:57Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - Synth2Aug: Cross-domain speaker recognition with TTS synthesized speech [8.465993273653554]
話者認識を支援するために,多話者テキスト音声合成システムを用いて音声合成を行う。
我々は、TTS合成音声がクロスドメイン話者認識性能を向上させることをデータセット上で観察する。
また,TTS合成に使用するテキストの異なるタイプの有効性についても検討する。
論文 参考訳(メタデータ) (2020-11-24T00:48:54Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。