論文の概要: Synthetic Voice Data for Automatic Speech Recognition in African Languages
- arxiv url: http://arxiv.org/abs/2507.17578v1
- Date: Wed, 23 Jul 2025 15:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.050133
- Title: Synthetic Voice Data for Automatic Speech Recognition in African Languages
- Title(参考訳): アフリカの言語における音声認識のための合成音声データ
- Authors: Brian DeRenzi, Anna Dixon, Mohamed Aymane Farhi, Christian Resch,
- Abstract要約: 合成テキストを作成する10言語中8言語が7点中5点以上の可読性を得た。
実データのコストの1%以下で2500時間以上の合成音声データを作成しました。
すべてのデータとモデルが公開され、アフリカ言語の合成データを改善するためのさらなる作業が招待される。
- 参考スコア(独自算出の注目度): 0.22499166814992436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech technology remains out of reach for most of the over 2300 languages in Africa. We present the first systematic assessment of large-scale synthetic voice corpora for African ASR. We apply a three-step process: LLM-driven text creation, TTS voice synthesis, and ASR fine-tuning. Eight out of ten languages for which we create synthetic text achieved readability scores above 5 out of 7. We evaluated ASR improvement for three (Hausa, Dholuo, Chichewa) and created more than 2,500 hours of synthetic voice data at below 1% of the cost of real data. Fine-tuned Wav2Vec-BERT-2.0 models trained on 250h real and 250h synthetic Hausa matched a 500h real-data-only baseline, while 579h real and 450h to 993h synthetic data created the best performance. We also present gender-disaggregated ASR performance evaluation. For very low-resource languages, gains varied: Chichewa WER improved about 6.5% relative with a 1:2 real-to-synthetic ratio; a 1:1 ratio for Dholuo showed similar improvements on some evaluation data, but not on others. Investigating intercoder reliability, ASR errors and evaluation datasets revealed the need for more robust reviewer protocols and more accurate evaluation data. All data and models are publicly released to invite further work to improve synthetic data for African languages.
- Abstract(参考訳): 音声技術は、アフリカにおける2300以上の言語の大半に及ばない。
アフリカASRのための大規模合成音声コーパスの最初の体系的評価を行った。
LLMによるテキスト生成、TS音声合成、ASRファインチューニングという3段階のプロセスを適用する。
合成テキストを作成する10言語中8言語が7点中5点以上の可読性を得た。
我々は,ASRの改善を3つ(Hausa,Dholuo,Chichewa)で評価し,実データコストの1%以下で2500時間以上の合成音声データを作成した。
微調整されたWav2Vec-BERT-2.0は250hのリアルタイムと250hの合成Hausaでトレーニングされ、500hのリアルタイムデータのみのベースラインと一致し、579hのリアルタイムと450hから993hの合成データが最高のパフォーマンスを生み出した。
また,性別別ASR評価も提案する。
Chichewa WERは1:2実合成比に対して約6.5%改善し、Dholuoの1:1比は、いくつかの評価データに対して同様の改善を示したが、それ以外は改善しなかった。
インターコーダの信頼性、ASRエラー、評価データセットを調べることで、より堅牢なレビュアープロトコルとより正確な評価データの必要性が明らかになった。
すべてのデータとモデルが公開され、アフリカ言語の合成データを改善するためのさらなる作業が招待される。
関連論文リスト
- A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data [46.73430446242378]
本稿では,ラベルのないデータセットのみを用いて,ASR性能を向上させる自己精錬フレームワークを提案する。
台湾語マンダリン音声における枠組みの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-10T17:30:32Z) - KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文 参考訳(メタデータ) (2025-05-26T08:38:02Z) - Embedding-Driven Diversity Sampling to Improve Few-Shot Synthetic Data Generation [4.684310901243605]
そこで本研究では,少数の臨床論文から多様性を抽出し,大規模言語モデルを数発のプロンプトでガイドする埋め込み型アプローチを提案する。
われわれは,コサイン類似性とチューリング試験を用いて,実際の臨床テキストとより密に一致した合成ノートを作成した。
論文 参考訳(メタデータ) (2025-01-20T00:16:57Z) - Automatic Speech Recognition Advancements for Indigenous Languages of the Americas [0.0]
The Second Americas (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022年、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つの先住民言語の自動音声認識システムの訓練タスクを提案した。
対象言語毎の最先端のASRモデルの微調整について,データ拡張法に富んだ多種多様な情報源からの音声データの約36.65時間を用いて述べる。
私たちは各言語で最高のモデルをリリースし、Wa'ikhanaとKotiriaの最初のオープンなASRモデルをマークしています。
論文 参考訳(メタデータ) (2024-04-12T10:12:38Z) - Improving End-to-End Speech Processing by Efficient Text Data
Utilization with Latent Synthesis [17.604583337593677]
高性能エンドツーエンド音声(E2E)処理モデルの訓練には,大量のラベル付き音声データが必要となる。
E2E音声処理モデルのための効率的なテキストデータ利用フレームワークLaSynを提案する。
論文 参考訳(メタデータ) (2023-10-09T03:10:49Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Data Augmentation for Low-Resource Quechua ASR Improvement [2.260916274164351]
ディープラーニングの手法により、英語のASRでは単語エラー率が5%未満のシステムをデプロイできるようになった。
いわゆる低リソース言語では,既存のリソースに基づいて新たなリソースを作成する手法が検討されている。
本稿では,低リソースおよび凝集度言語に対するASRモデルの結果を改善するためのデータ拡張手法について述べる。
論文 参考訳(メタデータ) (2022-07-14T12:49:15Z) - Text-To-Speech Data Augmentation for Low Resource Speech Recognition [0.0]
本研究では,ASRモデルの改良を目的としたデータ拡張手法を提案する。
ケチュア語のコーパスを用いて実験を行った。
ASRモデルの単語誤り率(WER)の8.73%の改善は、合成テキストと合成音声の組み合わせを用いて得られる。
論文 参考訳(メタデータ) (2022-04-01T08:53:44Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。