論文の概要: LLM-to-Speech: A Synthetic Data Pipeline for Training Dialectal Text-to-Speech Models
- arxiv url: http://arxiv.org/abs/2602.15675v1
- Date: Tue, 17 Feb 2026 15:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.116114
- Title: LLM-to-Speech: A Synthetic Data Pipeline for Training Dialectal Text-to-Speech Models
- Title(参考訳): LLM-to-Speech: 辞書テキスト-音声モデルの学習のための合成データパイプライン
- Authors: Ahmed Khaled Khamis, Hesham Ali,
- Abstract要約: 我々はNileTTSについて紹介する: 多様なドメインにわたる2人の話者による38時間の音声の書き起こしを行う。
大型言語モデル (LLM) はエジプトのアラビア語コンテンツを生成し、音声合成ツールを用いて自然言語に変換する。
我々は、そのデータセットに基づいて、最先端の多言語TSモデルであるXTTS v2を微調整し、他のアラビア方言で訓練されたベースラインモデルに対して評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the advances in neural text to speech (TTS), many Arabic dialectal varieties remain marginally addressed, with most resources concentrated on Modern Spoken Arabic (MSA) and Gulf dialects, leaving Egyptian Arabic -- the most widely understood Arabic dialect -- severely under-resourced. We address this gap by introducing NileTTS: 38 hours of transcribed speech from two speakers across diverse domains including medical, sales, and general conversations. We construct this dataset using a novel synthetic pipeline: large language models (LLM) generate Egyptian Arabic content, which is then converted to natural speech using audio synthesis tools, followed by automatic transcription and speaker diarization with manual quality verification. We fine-tune XTTS v2, a state-of-the-art multilingual TTS model, on our dataset and evaluate against the baseline model trained on other Arabic dialects. Our contributions include: (1) the first publicly available Egyptian Arabic TTS dataset, (2) a reproducible synthetic data generation pipeline for dialectal TTS, and (3) an open-source fine-tuned model. All resources are released to advance Egyptian Arabic speech synthesis research.
- Abstract(参考訳): ニューラルテキスト・トゥ・スピーチ(TTS)の進歩にもかかわらず、多くのアラビア方言の方言は、現代スポンケンアラビア語(MSA)とガルフ方言に集中しており、エジプトアラビア語(最も広く理解されているアラビア方言)は、極端に不足している。
NileTTSを導入することでこのギャップに対処する: 医療、セールス、一般的な会話など、さまざまな領域にわたる2人の話者による38時間にわたる音声の書き起こし。
大規模な言語モデル(LLM)はエジプトのアラビア語コンテンツを生成し、音声合成ツールを用いて自然言語に変換し、次に手動品質検証による自動転写と話者ダイアリゼーションを行う。
我々は、そのデータセットに基づいて、最先端の多言語TSモデルであるXTTS v2を微調整し、他のアラビア方言で訓練されたベースラインモデルに対して評価する。
コントリビューションには,(1)エジプトで初めて公開されたアラビア語 TTS データセット,(2)方言 TTS のための再現可能な合成データ生成パイプライン,(3) オープンソースの微調整モデルなどが含まれている。
全ての資源はエジプトのアラビア語音声合成研究を進めるために解放される。
関連論文リスト
- ArFake: A Multi-Dialect Benchmark and Baselines for Arabic Spoof-Speech Detection [2.5962590697722447]
アラビア語スプーフ音声データセットを初めて紹介する。
以上の結果から,FishSpeechはカサブランカコーパスのアラビア語音声クローニングにおいて,他のTSモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-09-26T18:11:20Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - End-to-End Speech Translation of Arabic to English Broadcast News [2.375764121997739]
音声翻訳(英: speech translation, ST)とは、ソース言語の音声信号を外国語のテキストに翻訳する作業である。
本稿では,最初のアラビア語から英語への翻訳システムであるブロードキャストニュースの開発に向けた取り組みについて述べる。
論文 参考訳(メタデータ) (2022-12-11T11:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。