論文の概要: More Data, Fewer Diacritics: Scaling Arabic TTS
- arxiv url: http://arxiv.org/abs/2603.01622v1
- Date: Mon, 02 Mar 2026 08:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.778879
- Title: More Data, Fewer Diacritics: Scaling Arabic TTS
- Title(参考訳): より多くのデータと少ないダイアクリティカル:アラビア語 TTS のスケーリング
- Authors: Ahmed Musleh, Yifan Zhang, Kareem Darwish,
- Abstract要約: アラビア録音を収集し,音声活動検出,音声認識,自動発音,ノイズフィルタリングを用いて自動処理するパイプラインを構築した。
我々は,100時間,1,000時間,4,000時間という多種多様なデータを用いて音声クローンを用いた頑健なTSSモデルを訓練する。
ダイアクリティカル化データに基づいてトレーニングされたモデルは概して優れているが、多くのトレーニングデータが、ダイアクリティカル化の欠如を補う。
- 参考スコア(独自算出の注目度): 8.215454107618287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arabic Text-to-Speech (TTS) research has been hindered by the availability of both publicly available training data and accurate Arabic diacritization models. In this paper, we address the limitation by exploring Arabic TTS training on large automatically annotated data. Namely, we built a robust pipeline for collecting Arabic recordings and processing them automatically using voice activity detection, speech recognition, automatic diacritization, and noise filtering, resulting in around 4,000 hours of Arabic TTS training data. We then trained several robust TTS models with voice cloning using varying amounts of data, namely 100, 1,000, and 4,000 hours with and without diacritization. We show that though models trained on diacritized data are generally better, larger amounts of training data compensate for the lack of diacritics to a significant degree. We plan to release a public Arabic TTS model that works without the need for diacritization.
- Abstract(参考訳): アラビア語のテキスト・トゥ・スペーチ(TTS)研究は、公的に利用可能なトレーニングデータと正確なアラビア語の発音モデルの両方が利用可能であることによって妨げられている。
本稿では,大規模な自動注釈付きデータに対するアラビア語 TTS トレーニングを探索し,その限界に対処する。
すなわち、音声活動検出、音声認識、自動発音、ノイズフィルタリングを用いてアラビア録音を収集、処理するための堅牢なパイプラインを構築し、約4000時間のTTSトレーニングデータを得た。
次に,100時間,1,000時間,4,000時間というさまざまなデータを用いて音声クローンを用いた頑健なTTSモデルを訓練した。
ダイアクリティカル化データに基づいてトレーニングされたモデルは概して優れているが、多くのトレーニングデータが、ダイアクリティカル化の欠如を補う。
ダイアライゼーションを必要とせず,公的なアラビア語 TTS モデルをリリースする計画である。
関連論文リスト
- SpeechWeave: Diverse Multilingual Synthetic Text & Audio Data Generation Pipeline for Training Text to Speech Models [1.7012324714448024]
SpeechWeaveは、TSモデルをトレーニングするための多言語、ドメイン固有のデータセットの自動生成が可能な合成音声データ生成パイプラインである。
我々のアプローチは、TSトレーニングのためのスケーラブルで高品質なデータ生成を可能にし、生成されたデータセットの多様性、正規化、音声一貫性を改善します。
論文 参考訳(メタデータ) (2025-09-15T15:11:43Z) - Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - SpoofCeleb: Speech Deepfake Detection and SASV In The Wild [76.71096751337888]
SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。
SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
論文 参考訳(メタデータ) (2024-09-18T23:17:02Z) - Arabic Automatic Story Generation with Large Language Models [15.000055598698438]
我々は,大規模言語モデル(LLM)からストーリを生成するタスクに注力する。
トレーニングでは、機械翻訳(MT)とGPT-4を使って獲得したストーリーを使用します。
GPT-41データには、アラビア語の文脈に適したデータを生成するためのプロンプトが導入された。
論文 参考訳(メタデータ) (2024-07-10T11:26:10Z) - Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - Reproducing Whisper-Style Training Using an Open-Source Toolkit and
Publicly Available Data [75.7383558074758]
本研究はWhisperスタイル音声モデル(OWSM)を提案する。
OWSMはオープンソースツールキットと公開データを使ってWhisperスタイルのトレーニングを再現する。
データ準備、トレーニング、推論、スコアリングに使用されるすべてのスクリプトと、オープンサイエンスを促進するための事前訓練されたモデルとトレーニングログを公開します。
論文 参考訳(メタデータ) (2023-09-25T05:01:34Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文 参考訳(メタデータ) (2023-07-13T21:06:23Z) - Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text
Diacritization [10.342180619706724]
トークンのない事前訓練された多言語モデルを微調整し、アラビア文字に欠落したダイアクリティカルを予測し挿入することを学ぶ。
我々は,最小限の訓練量と機能工学を伴わずに,診断タスクの最先端を達成できることを実証した。
論文 参考訳(メタデータ) (2023-03-25T23:41:33Z) - Unsupervised Data Selection for TTS: Using Arabic Broadcast News as a
Case Study [44.07589545984369]
本稿では、自動データ選択と事前学習/微調整戦略を含む、TS構築のための完全に教師なしの手法を提案する。
我々は,データの選択を慎重に行うことで,TSシステムの効率が向上することを示す。
評価の結果,CERは3.9%,CERは1.3%であった。
論文 参考訳(メタデータ) (2023-01-22T10:41:58Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。