論文の概要: Arabic Little STT: Arabic Children Speech Recognition Dataset
- arxiv url: http://arxiv.org/abs/2510.23319v1
- Date: Mon, 27 Oct 2025 13:30:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.557165
- Title: Arabic Little STT: Arabic Children Speech Recognition Dataset
- Title(参考訳): アラビア語の子供向け音声認識データセット「Little STT」
- Authors: Mouhand Alkadri, Dania Desouki, Khloud Al Jallad,
- Abstract要約: 教室で記録されたレバンタ・アラビア・チャイルド・スピーチのデータセットであるアラビア・リトルSTTを提示する。
また,このデータセットを用いて,最先端自動音声認識(ASR)モデルであるWhisperを体系的に評価する。
評価の結果, 最良性能モデル(Large_v3)でさえ, 子どもの発話において0.66ワード誤り率(WER)を達成できないことが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Artificial Intelligence (AI) systems fundamentally depends on high-quality training data. However, low-resource languages like Arabic suffer from severe data scarcity. Moreover, the absence of child-specific speech corpora is an essential gap that poses significant challenges. To address this gap, we present our created dataset, Arabic Little STT, a dataset of Levantine Arabic child speech recorded in classrooms, containing 355 utterances from 288 children (ages 6 - 13). We further conduct a systematic assessment of Whisper, a state-of-the-art automatic speech recognition (ASR) model, on this dataset and compare its performance with adult Arabic benchmarks. Our evaluation across eight Whisper variants reveals that even the best-performing model (Large_v3) struggles significantly, achieving a 0.66 word error rate (WER) on child speech, starkly contrasting with its sub 0.20 WER on adult datasets. These results align with other research on English speech. Results highlight the critical need for dedicated child speech benchmarks and inclusive training data in ASR development. Emphasizing that such data must be governed by strict ethical and privacy frameworks to protect sensitive child information. We hope that this study provides an initial step for future work on equitable speech technologies for Arabic-speaking children. We hope that our publicly available dataset enrich the children's demographic representation in ASR datasets.
- Abstract(参考訳): 人工知能(AI)システムの性能は、基本的に高品質なトレーニングデータに依存する。
しかし、アラビア語のような低リソース言語は深刻なデータ不足に悩まされている。
さらに、子ども固有の音声コーパスが存在しないことは、重要な課題を生じさせる重要なギャップである。
このギャップに対処するため,教室で記録されたアラビア・リトルSTTという,288人の子ども(年齢6~13歳)の355発の発声を含む,レバンタ・アラビア・チャイルド・スピーチのデータセットを作成した。
さらに、このデータセット上で、最先端自動音声認識(ASR)モデルであるWhisperを体系的に評価し、その性能を成人アラビア人のベンチマークと比較する。
Whisper の8つの変種に対する評価の結果,最良性能モデル (Large_v3) においても,成人データセットでは 0.66 ワード誤り率 (WER) が0。
これらの結果は、英語の他の研究と一致している。
結果は、ASR開発における専用音声ベンチマークと包括的トレーニングデータの必要性を強調した。
このようなデータは、機密性の高い児童情報を保護するために、厳格な倫理的およびプライバシーの枠組みによって管理されなければならない、と強調する。
本研究は、アラビア語を母語とする子どものための平等な音声技術開発に向けた最初のステップとなることを願っている。
ASRデータセットにおける子どもの人口統計表現を、我々の公開データセットが豊かにすることを願っている。
関連論文リスト
- Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。
SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。
年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文 参考訳(メタデータ) (2025-08-22T17:59:35Z) - An End-to-End Approach for Child Reading Assessment in the Xhosa Language [0.3579433677269426]
本研究は, 南アフリカで話されている言語であるXhosaに着目し, 子どもの音声認識能力を向上させることを目的とした。
本稿では,Xhosaにおける児童音声サンプルからなる新しいデータセットを提案する。
その結果、これらのモデルの性能は、利用可能なトレーニングデータの量とバランスに大きく影響されることが示唆された。
論文 参考訳(メタデータ) (2025-05-23T00:59:58Z) - Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。
子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。
これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文 参考訳(メタデータ) (2024-08-07T08:18:51Z) - Improving child speech recognition with augmented child-like speech [20.709414063132627]
言語間の子子間音声変換は、子どものASR性能を著しく改善した。
最先端のASRは、子どものスピーチに最適なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-12T08:56:46Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。