論文の概要: ArVoice: A Multi-Speaker Dataset for Arabic Speech Synthesis
- arxiv url: http://arxiv.org/abs/2505.20506v1
- Date: Mon, 26 May 2025 20:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.282696
- Title: ArVoice: A Multi-Speaker Dataset for Arabic Speech Synthesis
- Title(参考訳): ArVoice:アラビア語音声合成のためのマルチスピーカーデータセット
- Authors: Hawau Olamide Toyin, Rufael Marew, Humaid Alblooshi, Samar M. Magdy, Hanan Aldarmaki,
- Abstract要約: ArVoiceは、多話者の現代標準アラビア語コーパス(MSA)である。
これは、音声によるダイアクリティカルな復元、音声変換、ディープフェイク検出などの他のタスクに有用である。
- 参考スコア(独自算出の注目度): 1.1417805445492082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ArVoice, a multi-speaker Modern Standard Arabic (MSA) speech corpus with diacritized transcriptions, intended for multi-speaker speech synthesis, and can be useful for other tasks such as speech-based diacritic restoration, voice conversion, and deepfake detection. ArVoice comprises: (1) a new professionally recorded set from six voice talents with diverse demographics, (2) a modified subset of the Arabic Speech Corpus; and (3) high-quality synthetic speech from two commercial systems. The complete corpus consists of a total of 83.52 hours of speech across 11 voices; around 10 hours consist of human voices from 7 speakers. We train three open-source TTS and two voice conversion systems to illustrate the use cases of the dataset. The corpus is available for research use.
- Abstract(参考訳): 本稿では,多話者音声合成を目的とした多話者現代アラビア語(MSA)音声コーパスArVoiceを紹介する。
ArVoice は,(1) 多様な人口層を持つ6人の声質者からなる新たな職業的録音セット,(2) アラビア音声コーパスの修正サブセット,(3) 2つの商業システムからの高品質な合成音声を含む。
完全なコーパスは11声の合計83.52時間であり、約10時間は7人の話者の人間の声で構成されている。
我々は、データセットのユースケースを説明するために、3つのオープンソースのTSと2つの音声変換システムを訓練する。
コーパスは研究用として利用できる。
関連論文リスト
- CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文 参考訳(メタデータ) (2025-05-23T07:55:21Z) - A multi-speaker multi-lingual voice cloning system based on vits2 for limmits 2024 challenge [16.813582262700415]
この課題は,音声クローニング機能を備えた多言語多言語Indic Text-to-Speechシステムの構築である。
このシステムは、課題データを用いて訓練され、ターゲットスピーカー上で数発の音声クローンを行うための微調整が行われた。
論文 参考訳(メタデータ) (2024-06-22T10:49:36Z) - Voxtlm: unified decoder-only models for consolidating speech
recognition/synthesis and speech/text continuation tasks [61.3055230762097]
音声認識,音声合成,テキスト生成,音声継続の4つのタスクを実行できるデコーダのみの言語モデルであるVoxtLMを提案する。
VoxtLMは、テキスト語彙を自己教師付き音声特徴から独立した音声トークンと統合し、マルチタスク学習を可能にするために特別なトークンを使用する。
論文 参考訳(メタデータ) (2023-09-14T03:13:18Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。