Fugu-MT 論文翻訳(概要): Arabic Text-To-Speech (TTS) Data Preparation

論文の概要: Arabic Text-To-Speech (TTS) Data Preparation

arxiv url: http://arxiv.org/abs/2204.03255v1
Date: Thu, 7 Apr 2022 06:58:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-09 03:26:37.055891
Title: Arabic Text-To-Speech (TTS) Data Preparation
Title（参考訳）: アラビア文字音声(TTS)データ作成
Authors: Hala Al Masri, Muhy Eddin Za'ter
Abstract要約: Text-to-Speech (TTS)は、TSモジュールの結果に大きな影響を与える可能性があるため、記録データに大きく依存する。品質と振舞いを考慮した異なる記録方法もまた、モジュールの開発において有利である。本研究の目的は, 自然性, 知性, 理解の両面での音声システムの進化に, 地道的発話がどのような影響を及ぼすかを明らかにすることである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: People may be puzzled by the fact that voice over recordings data sets exist in addition to Text-to-Speech (TTS), Synthesis system advancements, albeit this is not the case. The goal of this study is to explain the relevance of TTS as well as the data preparation procedures. TTS relies heavily on recorded data since it can have a substantial influence on the outcomes of TTS modules. Furthermore, whether the domain is specialized or general, appropriate data should be developed to address all predicted language variants and domains. Different recording methodologies, taking into account quality and behavior, may also be advantageous in the development of the module. In light of the lack of Arabic language in present synthesizing systems, numerous variables that impact the flow of recorded utterances are being considered in order to manipulate an Arabic TTS module. In this study, two viewpoints will be discussed: linguistics and the creation of high-quality recordings for TTS. The purpose of this work is to offer light on how ground-truth utterances may influence the evolution of speech systems in terms of naturalness, intelligibility, and understanding. Well provide voice actor specs as well as data specs that will assist both voice actors and voice coaches in the studio as well as the annotators who will be evaluating the audios.
Abstract（参考訳）: テキスト音声合成(TTS, Text-to-Speech)に加えて、録音データセットの音声が存在しているという事実に、人々は困惑するかもしれない。本研究の目的は,TTSとデータ作成手順の関連性を説明することである。 TTSは、TSモジュールの結果に大きな影響を与える可能性があるため、記録データに大きく依存する。さらに、ドメインが特殊であるか一般であるかにかかわらず、予測されるすべての言語変種やドメインに対応する適切なデータを開発する必要がある。品質と振舞いを考慮した異なる記録方法もまた、モジュールの開発において有利である。現在の合成システムにおけるアラビア語の欠如を踏まえ、記録された発話の流れに影響を与える多くの変数が、アラビア語のTSモジュールを操作するために検討されている。本研究では,言語学とTTSのための高品質記録の作成という2つの視点について論じる。本研究の目的は, 自然性, 知性, 理解の両面から, 音声システムの進化にどのような影響があるかを明らかにすることである。音声俳優のスペックだけでなく、スタジオの音声俳優と音声コーチ、そして音声の評価を行う注釈家の両方を支援するデータスペックも提供します。

関連論文リスト

SpeechWeave: Diverse Multilingual Synthetic Text & Audio Data Generation Pipeline for Training Text to Speech Models [1.7012324714448024]
SpeechWeaveは、TSモデルをトレーニングするための多言語、ドメイン固有のデータセットの自動生成が可能な合成音声データ生成パイプラインである。我々のアプローチは、TSトレーニングのためのスケーラブルで高品質なデータ生成を可能にし、生成されたデータセットの多様性、正規化、音声一貫性を改善します。
論文参考訳（メタデータ） (2025-09-15T15:11:43Z)
Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis [30.97784092953007]
本稿では、アクセント付き音声認識を改善するためのデータ拡張手法として、教師なし音声合成(TTS)の使用について検討する。 TTSシステムは、手書き文字起こしではなく、少量のアクセント付き音声訓練データとそれらの擬似ラベルで訓練される。この手法により,アクセント付き音声認識のためのデータ拡張を行うために,手書きの書き起こしを伴わないアクセント付き音声データを使用することが可能である。
論文参考訳（メタデータ） (2024-07-04T16:42:24Z)
An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-06-13T08:16:52Z)
Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文参考訳（メタデータ） (2024-06-03T05:56:02Z)
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。 Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文参考訳（メタデータ） (2023-06-06T08:54:49Z)
UnifySpeech: A Unified Framework for Zero-shot Text-to-Speech and Voice Conversion [63.346825713704625]
テキスト音声変換(TTS, Text-to-Speech)と音声変換(VC)は2つの異なるタスクであり, 音質の異なる音質で音声を合成することを目的としている。本稿では,TSとVCを統合フレームワークに初めて導入するUnifySpeechを提案する。
論文参考訳（メタデータ） (2023-01-10T06:06:57Z)
Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文参考訳（メタデータ） (2021-11-23T10:05:05Z)
A study on the efficacy of model pre-training in developing neural text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文参考訳（メタデータ） (2021-10-08T02:09:28Z)
AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文参考訳（メタデータ） (2021-04-20T01:53:30Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。