論文の概要: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2510.10774v1
- Date: Sun, 12 Oct 2025 19:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.101107
- Title: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
- Title(参考訳): ParsVoice: テキスト音声合成のための大規模多話者ペルシャ音声コーパス
- Authors: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery,
- Abstract要約: 既存のペルシア語のデータセットは、典型的には英語のデータセットよりも小さい。
ParsVoice はペルシャ語で最大の音声コーパスで、特に音声による音声合成のために設計された。
パイプラインは2,000のオーディオブックを処理し、3,526時間のクリーン音声を生成する。
ParsVoiceは、主要な英語コーパスに匹敵する話者の多様性とオーディオ品質を提供する、ペルシア語音声データセット最大である。
- 参考スコア(独自算出の注目度): 3.763275651955603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Persian Language, despite being spoken by over 100 million people worldwide, remains severely underrepresented in high-quality speech corpora, particularly for text-to-speech (TTS) synthesis applications. Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for TTS applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and multi-dimensional quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies and to serve as a template for other low-resource languages. The ParsVoice dataset is publicly available at ParsVoice (https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice).
- Abstract(参考訳): ペルシャ語は世界中で1億人以上の人々によって話されているにもかかわらず、高品質な音声コーパス、特にテキスト音声合成(TTS)の用途では、依然として過小評価されている。
既存のペルシア語音声データセットは通常、英語のデータセットよりも小さく、ペルシア語音声技術の発達に重要な制限が生じる。
このギャップに対処するために、TTS専用に設計されたペルシャ最大の音声コーパスであるParsVoiceを導入する。
我々は、生オーディオブックコンテンツをTS対応データに変換する自動パイプラインを作成し、BERTベースの文補完検出器、正確な音声テキストアライメントのためのバイナリ検索境界最適化手法、ペルシア語に合わせた多次元品質評価フレームワークなどのコンポーネントを組み込んだ。
パイプラインは2,000のオーディオブックを処理し、3,526時間のクリーンな音声を出力し、さらに470人以上のスピーカーを備えたTSに適した1,804時間の高品質なサブセットにフィルタされた。
ParsVoiceは、主要な英語コーパスに匹敵する話者の多様性とオーディオ品質を提供する、ペルシア語音声データセット最大である。
完全なデータセットは、ペルシア語音声技術の発展を加速し、他の低リソース言語のためのテンプレートとして機能するために公開されている。
ParsVoiceデータセットはParsVoice(https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice)で公開されている。
関連論文リスト
- RASMALAI: Resources for Adaptive Speech Modeling in Indian Languages with Accents and Intonations [15.198945496921914]
本稿では,リッチテキスト記述を伴う大規模音声データセットであるRASMALAIを紹介する。
IndicParlerTTSは,インド語に対する初のオープンソースのテキスト記述誘導型TTSである。
論文 参考訳(メタデータ) (2025-05-24T09:16:14Z) - Bahasa Harmony: A Comprehensive Dataset for Bahasa Text-to-Speech Synthesis with Discrete Codec Modeling of EnGen-TTS [0.0]
本研究では,包括的バハサテキスト音声データセットと,新しいTSモデルであるEnGen-TTSを紹介する。
提案したEnGen-TTSモデルは、確立されたベースラインよりも優れており、平均オピニオンスコア(MOS)は4.45$pm$ 0.13である。
この研究はバハサ TTS 技術の進歩であり、多様な言語応用に影響を及ぼす。
論文 参考訳(メタデータ) (2024-10-09T07:01:05Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。