Fugu-MT 論文翻訳(概要): Towards Zero-Shot Text-To-Speech for Arabic Dialects

論文の概要: Towards Zero-Shot Text-To-Speech for Arabic Dialects

arxiv url: http://arxiv.org/abs/2406.16751v1
Date: Mon, 24 Jun 2024 15:58:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 14:05:36.930190
Title: Towards Zero-Shot Text-To-Speech for Arabic Dialects
Title（参考訳）: アラビア方言のゼロショットテキスト音声化に向けて
Authors: Khai Duy Doan, Abdul Waheed, Muhammad Abdul-Mageed,
Abstract要約: ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
参考スコア（独自算出の注目度）: 16.10882912169842
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Zero-shot multi-speaker text-to-speech (ZS-TTS) systems have advanced for English, however, it still lags behind due to insufficient resources. We address this gap for Arabic, a language of more than 450 million native speakers, by first adapting a sizeable existing dataset to suit the needs of speech synthesis. Additionally, we employ a set of Arabic dialect identification models to explore the impact of pre-defined dialect labels on improving the ZS-TTS model in a multi-dialect setting. Subsequently, we fine-tune the XTTS\footnote{https://docs.coqui.ai/en/latest/models/xtts.html}\footnote{https://medium.com/machine-learns/xtts-v2-new-version-of-the-open-source-text-to-speech-model-af7391 4db81f}\footnote{https://medium.com/@erogol/xtts-v1-techincal-notes-eb83ff05bdc} model, an open-source architecture. We then evaluate our models on a dataset comprising 31 unseen speakers and an in-house dialectal dataset. Our automated and human evaluation results show convincing performance while capable of generating dialectal speech. Our study highlights significant potential for improvements in this emerging area of research in Arabic.
Abstract（参考訳）: ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。このギャップに対処するアラビア語は、4億5000万人以上の母語話者の言語で、まず、音声合成のニーズに合う大きさの既存のデータセットを適用します。さらに、アラビア語の方言識別モデルを用いて、事前定義された方言ラベルが多方言環境でのZS-TTSモデルの改善に与える影響を探索する。 XTTS\footnote{https://docs.coqui.ai/en/latest/models/xtts.html}\footnote{https://medium.com/machine-learns/xtts-v2-new-version-of-the-open-source-text-to-speech-model-af7391 4db81f}\footnote{https://medium.com/@erogol/xtts-v1-techincal-notes-eb83ff05bdc} は、オープンソースのアーキテクチャである。次に、31人の未確認話者と、社内の方言データセットからなるデータセット上で、我々のモデルを評価した。自動評価と人的評価の結果は、方言音声を生成でき、説得力のある性能を示す。我々の研究は、アラビア語におけるこの新たな研究領域の改善の可能性を強調している。

関連論文リスト

LLM-to-Speech: A Synthetic Data Pipeline for Training Dialectal Text-to-Speech Models [0.0]
我々はNileTTSについて紹介する: 多様なドメインにわたる2人の話者による38時間の音声の書き起こしを行う。大型言語モデル (LLM) はエジプトのアラビア語コンテンツを生成し、音声合成ツールを用いて自然言語に変換する。我々は、そのデータセットに基づいて、最先端の多言語TSモデルであるXTTS v2を微調整し、他のアラビア方言で訓練されたベースラインモデルに対して評価する。
論文参考訳（メタデータ） (2026-02-17T15:58:27Z)
ArFake: A Multi-Dialect Benchmark and Baselines for Arabic Spoof-Speech Detection [2.5962590697722447]
アラビア語スプーフ音声データセットを初めて紹介する。以上の結果から,FishSpeechはカサブランカコーパスのアラビア語音声クローニングにおいて,他のTSモデルよりも優れていた。
論文参考訳（メタデータ） (2025-09-26T18:11:20Z)
MahaTTS: A Unified Framework for Multilingual Text-to-Speech Synthesis [0.0]
MahaTTS-v2は多言語対応の多言語テキスト音声合成システムである。提案手法では,意味抽出にWav2Vec2.0トークン,テキストからセマンティック・モデリングにLanguage Model(LM)を利用する。
論文参考訳（メタデータ） (2025-08-05T20:49:04Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文参考訳（メタデータ） (2023-05-22T13:12:16Z)
ArmanTTS single-speaker Persian dataset [2.7836084563851284]
本稿では,単一話者データセットArmanTTSを紹介する。 ArmanTTSはペルシア語のテキスト音声変換モデルを教えるために必要な標準を満たしていることを示す。また,Tacotron 2 と HiFi GAN を組み合わせて,音素を入力として受信可能なモデルの設計を行い,その出力を対応する音声とする。
論文参考訳（メタデータ） (2023-04-07T10:52:55Z)
Towards Building Text-To-Speech Systems for the Next Billion Users [18.290165216270452]
そこで我々は,ドラヴィダ語とインド・アーリア語に対する音響モデル,ボコーダ,補足的損失関数,訓練スケジュール,話者および言語多様性の選択について検討した。我々は,13言語を対象としたTSモデルをトレーニングし,評価し,各言語における既存のモデルを大幅に改善するモデルを見出した。
論文参考訳（メタデータ） (2022-11-17T13:59:34Z)
Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文参考訳（メタデータ） (2022-11-11T20:21:38Z)
ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文参考訳（メタデータ） (2022-09-06T22:48:29Z)
Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文参考訳（メタデータ） (2021-12-15T18:56:35Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。