論文の概要: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2510.10774v2
- Date: Tue, 14 Oct 2025 05:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 12:06:24.261292
- Title: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
- Title(参考訳): ParsVoice: テキスト音声合成のための大規模多話者ペルシャ音声コーパス
- Authors: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery,
- Abstract要約: 既存のペルシア語のデータセットは、典型的には英語のデータセットよりも小さい。
ParsVoice はペルシャ語で最大の音声コーパスで、テキストから音声への応用に特化して設計された。
- 参考スコア(独自算出の注目度): 3.763275651955603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.
- Abstract(参考訳): 既存のペルシア語音声データセットは通常、英語のデータセットよりも小さく、ペルシア語音声技術の発達に重要な制限が生じる。
テキスト音声(TTS)アプリケーションに特化して設計されたペルシャ最大の音声コーパスであるParsVoiceを導入することで、このギャップに対処する。
我々は、生のオーディオブックコンテンツをTS対応データに変換する自動パイプラインを作成し、BERTベースの文補完検出器、正確な音声テキストアライメントのためのバイナリ検索境界最適化手法、ペルシア語に合わせたオーディオテキスト品質評価フレームワークなどのコンポーネントを組み込んだ。
パイプラインは2,000のオーディオブックを処理し、3,526時間のクリーンな音声を出力し、さらに470人以上のスピーカーを備えたTSに適した1,804時間の高品質なサブセットにフィルタされた。
このデータセットを検証するために、ペルシア語用XTTSを微調整し、3.6/5の自然性平均オピニオンスコア(MOS)と4.0/5の話者類似平均オピニオンスコア(SMOS)を実現し、マルチスピーカーTSシステムのトレーニングにおけるParsVoiceの有効性を実証した。
ParsVoiceは、主要な英語コーパスに匹敵する話者の多様性とオーディオ品質を提供する、ペルシア語音声データセット最大である。
ペルシア語音声技術の発展を加速するために、完全なデータセットが公開されている。
ParsVoiceデータセットは、https://huggingface.co/datasets/MohammadJRanjbar/ParsVoiceで公開されている。
関連論文リスト
- RASMALAI: Resources for Adaptive Speech Modeling in Indian Languages with Accents and Intonations [15.198945496921914]
本稿では,リッチテキスト記述を伴う大規模音声データセットであるRASMALAIを紹介する。
IndicParlerTTSは,インド語に対する初のオープンソースのテキスト記述誘導型TTSである。
論文 参考訳(メタデータ) (2025-05-24T09:16:14Z) - Bahasa Harmony: A Comprehensive Dataset for Bahasa Text-to-Speech Synthesis with Discrete Codec Modeling of EnGen-TTS [0.0]
本研究では,包括的バハサテキスト音声データセットと,新しいTSモデルであるEnGen-TTSを紹介する。
提案したEnGen-TTSモデルは、確立されたベースラインよりも優れており、平均オピニオンスコア(MOS)は4.45$pm$ 0.13である。
この研究はバハサ TTS 技術の進歩であり、多様な言語応用に影響を及ぼす。
論文 参考訳(メタデータ) (2024-10-09T07:01:05Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。