論文の概要: AfriVoices-KE: A Multilingual Speech Dataset for Kenyan Languages
- arxiv url: http://arxiv.org/abs/2604.08448v1
- Date: Thu, 09 Apr 2026 16:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.029905
- Title: AfriVoices-KE: A Multilingual Speech Dataset for Kenyan Languages
- Title(参考訳): AfriVoices-KE:ケニア語のための多言語音声データセット
- Authors: Lilian Wanzare, Cynthia Amol, zekiel Maina, Nelson Odhiambo, Hope Kerubo, Leila Misula, Vivian Oloo, Rennish Mboya, Edwin Onkoba, Edward Ombui, Joseph Muguro, Ciira wa Maina, Andrew Kipkebut, Alfred Omondi Otom, Ian Ndung'u Kang'ethe, Angela Wambui Kanyi, Brian Gichana Omwenga,
- Abstract要約: AfriVoices-KEはケニア語5言語で約3,000時間の音声を含む大規模多言語音声データセットである。
データセットには、750時間のスクリプト音声と、2,250時間の自発的音声が含まれており、さまざまな地域や人口層で4,777人のネイティブスピーカーから収集されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AfriVoices-KE is a large-scale multilingual speech dataset comprising approximately 3,000 hours of audio across five Kenyan languages: Dholuo, Kikuyu, Kalenjin, Maasai, and Somali. The dataset includes 750 hours of scripted speech and 2,250 hours of spontaneous speech, collected from 4,777 native speakers across diverse regions and demographics. This work addresses the critical underrepresentation of African languages in speech technology by providing a high-quality, linguistically diverse resource. Data collection followed a dual methodology: scripted recordings drew from compiled text corpora, translations, and domain-specific generated sentences spanning eleven domains relevant to the Kenyan context, while unscripted speech was elicited through textual and image prompts to capture natural linguistic variation and dialectal nuances. A customized mobile application enabled contributors to record using smartphones. Quality assurance operated at multiple layers, encompassing automated signal-to-noise ratio validation prior to recording and human review for content accuracy. Though the project encountered challenges common to low-resource settings, including unreliable infrastructure, device compatibility issues, and community trust barriers, these were mitigated through local mobilizers, stakeholder partnerships, and adaptive training protocols. AfriVoices-KE provides a foundational resource for developing inclusive automatic speech recognition and text-to-speech systems, while advancing the digital preservation of Kenya's linguistic heritage.
- Abstract(参考訳): AfriVoices-KEは、ケニアの5つの言語(Dholuo, Kikuyu, Kalenjin, Maasai, Somali)にまたがる約3,000時間の音声を含む大規模多言語音声データセットである。
データセットには、750時間のスクリプト音声と、2,250時間の自発的音声が含まれており、さまざまな地域や人口層で4,777人のネイティブスピーカーから収集されている。
この研究は、高品質で言語的に多様な資源を提供することによって、音声技術におけるアフリカの言語の重要性の過小評価に対処する。
データ収集は、コンパイルされたテキストコーパス、翻訳、およびケニアの文脈に関連する11の領域にまたがるドメイン固有の生成文から引き出されたスクリプト化された記録と、テキストと画像のプロンプトによって、自然な言語的バリエーションと方言のニュアンスをキャプチャする、という2つの手法を踏襲した。
カスタマイズされたモバイルアプリにより、コントリビュータはスマートフォンを使って記録できるようになった。
品質保証は複数の層で動作し、記録前の信号対雑音比の自動検証や、コンテンツの正確性に関する人間によるレビューを含む。
このプロジェクトは、信頼性の低いインフラストラクチャ、デバイス互換性の問題、コミュニティ信頼障壁など、低リソース環境に共通する課題に直面したが、これらは、ローカルモビライザ、ステークホルダーパートナーシップ、適応トレーニングプロトコルによって緩和された。
AfriVoices-KEは、ケニアの言語遺産のデジタル保存を進めながら、包括的自動音声認識と音声合成システムを開発するための基盤資源を提供する。
関連論文リスト
- WAXAL: A Large-Scale Multilingual African Language Speech Corpus [12.433885475371035]
WAXALは1億人以上の話者を表す21言語のための大規模でオープンにアクセスできる音声データセットである。
このコレクションは、約1,250時間の書き起こしを含む自動音声認識(ASR)データセットと、さまざまな話者からの自然な音声を含むテキスト音声合成(TTS)データセットの2つの主要コンポーネントで構成されている。
論文 参考訳(メタデータ) (2026-02-02T19:49:19Z) - The NaijaVoices Dataset: Cultivating Large-Scale, High-Quality, Culturally-Rich Speech Data for African Languages [10.225163354933372]
5000人以上の話者を持つ1,800時間音声テキストデータセットであるNaijaVoicesデータセットを紹介する。
我々は,我々のユニークなデータ収集手法を概説し,その音響的多様性を分析し,微調整実験を通じてその影響を実証する。
これらの結果から,ナイジャヴォイセスがアフリカ語における多言語音声処理を進展させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-26T22:53:48Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - Phonemic Representation and Transcription for Speech to Text
Applications for Under-resourced Indigenous African Languages: The Case of
Kiswahili [0.0]
キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。
本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。
これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
論文 参考訳(メタデータ) (2022-10-29T09:04:09Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。