論文の概要: Building a Luganda Text-to-Speech Model From Crowdsourced Data
- arxiv url: http://arxiv.org/abs/2405.10211v1
- Date: Thu, 16 May 2024 16:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 13:12:38.516375
- Title: Building a Luganda Text-to-Speech Model From Crowdsourced Data
- Title(参考訳): クラウドソーシングによるLugandaテキスト音声モデルの構築
- Authors: Sulaiman Kagumire, Andrew Katumba, Joyce Nakatumba-Nabende, John Quinn,
- Abstract要約: ルガンダのようなアフリカの言語に対するTTS(Text-to-speech)の開発は依然として限られている。
これまでの研究は、20歳から49歳の複数の話者のルガンダ・コモン・ボイス・レコードの活用に重点を置いていた。
本研究は,複数の話者の近近感を訓練することにより,共通音声からのLuganda TTSの品質を向上できることを示す。
- 参考スコア(独自算出の注目度): 0.5268826624911875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-speech (TTS) development for African languages such as Luganda is still limited, primarily due to the scarcity of high-quality, single-speaker recordings essential for training TTS models. Prior work has focused on utilizing the Luganda Common Voice recordings of multiple speakers aged between 20-49. Although the generated speech is intelligible, it is still of lower quality than the model trained on studio-grade recordings. This is due to the insufficient data preprocessing methods applied to improve the quality of the Common Voice recordings. Furthermore, speech convergence is more difficult to achieve due to varying intonations, as well as background noise. In this paper, we show that the quality of Luganda TTS from Common Voice can improve by training on multiple speakers of close intonation in addition to further preprocessing of the training data. Specifically, we selected six female speakers with close intonation determined by subjectively listening and comparing their voice recordings. In addition to trimming out silent portions from the beginning and end of the recordings, we applied a pre-trained speech enhancement model to reduce background noise and enhance audio quality. We also utilized a pre-trained, non-intrusive, self-supervised Mean Opinion Score (MOS) estimation model to filter recordings with an estimated MOS over 3.5, indicating high perceived quality. Subjective MOS evaluations from nine native Luganda speakers demonstrate that our TTS model achieves a significantly better MOS of 3.55 compared to the reported 2.5 MOS of the existing model. Moreover, for a fair comparison, our model trained on six speakers outperforms models trained on a single-speaker (3.13 MOS) or two speakers (3.22 MOS). This showcases the effectiveness of compensating for the lack of data from one speaker with data from multiple speakers of close intonation to improve TTS quality.
- Abstract(参考訳): ルガンダのようなアフリカの言語に対するTTS(Text-to-Speech)の開発は、主にTTSモデルの訓練に不可欠な高品質の単一話者録音が不足しているため、依然として限られている。
これまでの研究は、20歳から49歳の複数の話者のルガンダ・コモン・ボイス・レコードの活用に重点を置いていた。
生成した音声は理解可能であるが、スタジオグレードの録音で訓練されたモデルよりも品質が低い。
これは、コモン・ボイス・レコードの品質向上のために、データ前処理が不十分であったためである。
さらに、背景雑音だけでなく、様々なイントネーションによって、音声の収束がより困難になる。
本稿では,複数話者の接近音質を訓練することで,Luganda TTSの品質を向上させるとともに,トレーニングデータのさらなる前処理を行うことで,その精度を向上できることを示す。
具体的には, 主観的聴取と音声録音の比較により, 身近なイントネーションを持つ6人の女性話者を選定した。
録音開始から終了までのサイレント部分のトリミングに加えて,背景雑音を低減し,音質を向上させるために,事前学習音声強調モデルを適用した。
また,MOSを3.5以上の推定値でフィルタリングし,高い品質を示すために,事前学習した自己指導型平均オピニオンスコア(MOS)推定モデルを利用した。
9つのルーガンダ話者による主観的MOS評価は、既存の2.5MOSと比較して、我々のTSモデルの方が3.55MOSに優れていたことを示している。
さらに、公正な比較のために、我々のモデルは、単一話者(3.13 MOS)または2つの話者(3.22 MOS)で訓練されたモデルよりも優れている6つの話者で訓練された。
このことは、TTS品質を改善するために、1つの話者からのデータ不足を複数の話者からのデータで補う効果を示す。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Unsupervised Data Selection for TTS: Using Arabic Broadcast News as a
Case Study [44.07589545984369]
本稿では、自動データ選択と事前学習/微調整戦略を含む、TS構築のための完全に教師なしの手法を提案する。
我々は,データの選択を慎重に行うことで,TSシステムの効率が向上することを示す。
評価の結果,CERは3.9%,CERは1.3%であった。
論文 参考訳(メタデータ) (2023-01-22T10:41:58Z) - MAViL: Masked Audio-Video Learners [68.61844803682145]
本研究では,masked Audio-Video Learningers (MAViL) を用いて映像表現の学習を行う。
MAViLによる事前トレーニングにより、音声視覚分類および検索タスクにおいて、モデルの性能が向上する。
自己監督型オーディオ視覚モデルが初めて、ベンチマークの外部監視を使用するモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-15T18:59:59Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource
Highly Expressive Speech [5.521191428642322]
本稿では、ターゲット話者から15分間の音声データを用いて、高い表現力を持つTTS音声を構築する方法を提案する。
現在の最先端アプローチと比較して,提案手法は音声の自然性に対して23.3%向上し,録音とのギャップを埋めることができた。
論文 参考訳(メタデータ) (2021-06-24T10:52:10Z) - Low-resource expressive text-to-speech using data augmentation [12.396086122947679]
本稿では,大量のターゲットデータを記録するコストのかかる操作を回避するために,新しい3段階の手法を提案する。
我々は、他の話者からの所望の話し方での録音を活用することで、音声変換によるデータ拡張を行う。
次に、利用可能な録音の上に合成データを使って、TSモデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-11T11:22:37Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。