論文の概要: Swivuriso: The South African Next Voices Multilingual Speech Dataset
- arxiv url: http://arxiv.org/abs/2512.02201v1
- Date: Mon, 01 Dec 2025 20:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.608251
- Title: Swivuriso: The South African Next Voices Multilingual Speech Dataset
- Title(参考訳): Swivuriso: 南アフリカの次の声は多言語音声データセット
- Authors: Vukosi Marivatee, Kayode Olaleye, Sitwala Mundia, Andinda Bakainga, Unarine Netshifhefhe, Mahmooda Milanzie, Tsholofelo Hope Mogale, Thapelo Sindane, Zainab Abdulrasaq, Kesego Mokgosi, Chijioke Okorie, Nia Zion Van Wyk, Graham Morrissey, Dale Dunbar, Francois Smit, Tsosheletso Chidi, Rooweither Mabuya, Andiswa Bukula, Respect Mlambo, Tebogo Macucwa, Idris Abdulmumin, and Seani Rananga,
- Abstract要約: SwivurisoはAfrican Next Voicesプロジェクトの一部として開発された3000時間の多言語音声データセットである。
本稿では,データセット作成の指針となる設計原則,倫理的考察,データ収集手順について述べる。
- 参考スコア(独自算出の注目度): 2.2823062679418746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Swivuriso, a 3000-hour multilingual speech dataset developed as part of the African Next Voices project, to support the development and benchmarking of automatic speech recognition (ASR) technologies in seven South African languages. Covering agriculture, healthcare, and general domain topics, Swivuriso addresses significant gaps in existing ASR datasets. We describe the design principles, ethical considerations, and data collection procedures that guided the dataset creation. We present baseline results of training/finetuning ASR models with this data and compare to other ASR datasets for the langauges concerned.
- Abstract(参考訳): 本稿では,アフリカン・ネクスト・ボイス・プロジェクトの一環として開発された3000時間の多言語音声データセットであるSwivurisoを紹介し,南アフリカ7言語における自動音声認識(ASR)技術の開発とベンチマークを支援する。
Swivurisoは農業、医療、および一般分野のトピックをカバーすることで、既存のASRデータセットにおける大きなギャップに対処している。
本稿では,データセット作成の指針となる設計原則,倫理的考察,データ収集手順について述べる。
本稿では,このデータを用いたトレーニング/ファインタニングASRモデルのベースライン結果と,関連するランガッジに対する他のASRデータセットとの比較を行う。
関連論文リスト
- Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages [76.14451035425229]
大規模自動音声認識システムであるOmnilingual ASRを紹介する。
自己教師付き事前学習を7Bパラメータに拡張し、堅牢な音声表現を学習する。
ASRが提供しなかった500以上の言語を含む1,600以上の言語にカバー範囲を広げている。
論文 参考訳(メタデータ) (2025-11-12T19:48:09Z) - The NaijaVoices Dataset: Cultivating Large-Scale, High-Quality, Culturally-Rich Speech Data for African Languages [10.225163354933372]
5000人以上の話者を持つ1,800時間音声テキストデータセットであるNaijaVoicesデータセットを紹介する。
我々は,我々のユニークなデータ収集手法を概説し,その音響的多様性を分析し,微調整実験を通じてその影響を実証する。
これらの結果から,ナイジャヴォイセスがアフリカ語における多言語音声処理を進展させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-26T22:53:48Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - Phonemic Representation and Transcription for Speech to Text
Applications for Under-resourced Indigenous African Languages: The Case of
Kiswahili [0.0]
キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。
本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。
これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
論文 参考訳(メタデータ) (2022-10-29T09:04:09Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - MasakhaNER: Named Entity Recognition for African Languages [48.34339599387944]
アフリカで10の言語で名前付きエンティティ認識のための、最初の大規模な公開可能な高品質データセットを作成します。
我々は,これらの言語がNERにもたらす課題を理解するために,言語の特徴を詳述する。
論文 参考訳(メタデータ) (2021-03-22T13:12:44Z) - Fast Development of ASR in African Languages using Self Supervised
Speech Representation Learning [13.7466513616362]
本稿では,2020年6月のAfrican Master of Machine Intelligence (AMMI)における非公式なコラボレーションの結果について述べる。
モバイルアプリケーションを用いた音声データ収集に関する一連の講義と研究室の後、少数の学生と講師は、Wolof、Ga、Somaliの3つの言語のための自動音声認識(ASR)プロジェクトに取り組んだ。
本稿では,データ収集方法と,少量 (1h) の書き起こし音声を訓練データとして開発したASRシステムについて述べる。
論文 参考訳(メタデータ) (2021-03-16T11:37:03Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。