論文の概要: An End-to-End Approach for Child Reading Assessment in the Xhosa Language
- arxiv url: http://arxiv.org/abs/2505.17371v2
- Date: Mon, 02 Jun 2025 07:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.429932
- Title: An End-to-End Approach for Child Reading Assessment in the Xhosa Language
- Title(参考訳): Xhosa言語における児童読解評価のためのエンド・ツー・エンドアプローチ
- Authors: Sergio Chevtchenko, Nikhil Navas, Rafaella Vale, Franco Ubaudi, Sipumelele Lucwaba, Cally Ardington, Soheil Afshar, Mark Antoniou, Saeed Afshar,
- Abstract要約: 本研究は, 南アフリカで話されている言語であるXhosaに着目し, 子どもの音声認識能力を向上させることを目的とした。
本稿では,Xhosaにおける児童音声サンプルからなる新しいデータセットを提案する。
その結果、これらのモデルの性能は、利用可能なトレーニングデータの量とバランスに大きく影響されることが示唆された。
- 参考スコア(独自算出の注目度): 0.3579433677269426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Child literacy is a strong predictor of life outcomes at the subsequent stages of an individual's life. This points to a need for targeted interventions in vulnerable low and middle income populations to help bridge the gap between literacy levels in these regions and high income ones. In this effort, reading assessments provide an important tool to measure the effectiveness of these programs and AI can be a reliable and economical tool to support educators with this task. Developing accurate automatic reading assessment systems for child speech in low-resource languages poses significant challenges due to limited data and the unique acoustic properties of children's voices. This study focuses on Xhosa, a language spoken in South Africa, to advance child speech recognition capabilities. We present a novel dataset composed of child speech samples in Xhosa. The dataset is available upon request and contains ten words and letters, which are part of the Early Grade Reading Assessment (EGRA) system. Each recording is labeled with an online and cost-effective approach by multiple markers and a subsample is validated by an independent EGRA reviewer. This dataset is evaluated with three fine-tuned state-of-the-art end-to-end models: wav2vec 2.0, HuBERT, and Whisper. The results indicate that the performance of these models can be significantly influenced by the amount and balancing of the available training data, which is fundamental for cost-effective large dataset collection. Furthermore, our experiments indicate that the wav2vec 2.0 performance is improved by training on multiple classes at a time, even when the number of available samples is constrained.
- Abstract(参考訳): 子どものリテラシーは、個人の人生の次の段階における人生の結果を強く予測する要因である。
このことは、これらの地域でリテラシーレベルと高所得層の間のギャップを埋めるために、脆弱な低所得層と中所得層に対する標的的介入の必要性を示している。
この取り組みにおいて、読み上げアセスメントは、これらのプログラムの有効性を測定する重要なツールであり、AIは、このタスクで教育者を支援する信頼性と経済的ツールである。
低リソース言語における子話の自動読解システムの構築は, 限られたデータと, 子どもの声の独特の音響特性により, 重要な課題となっている。
本研究は, 南アフリカで話されている言語であるXhosaに着目し, 子どもの音声認識能力を向上させることを目的とした。
本稿では,Xhosaにおける児童音声サンプルからなる新しいデータセットを提案する。
データセットは要求に応じて利用可能であり、Early Grade Reading Assessment (EGRA)システムの一部である10の単語と文字を含んでいる。
各録音は、複数のマーカーによるオンラインかつ費用対効果のアプローチでラベル付けされ、サブサンプルは独立したEGRAレビュアーによって検証される。
このデータセットは、wav2vec 2.0、HuBERT、Whisperの3つの細調整されたエンドツーエンドモデルで評価されている。
その結果,これらのモデルの性能は,費用対効果の高い大規模データセット収集の基礎となる,利用可能なトレーニングデータの量とバランスに大きく影響されることが示唆された。
さらに,実験結果から,利用可能なサンプル数に制約がある場合でも,複数のクラスを一度にトレーニングすることで,wav2vec 2.0の性能が向上することが示唆された。
関連論文リスト
- Automatic Proficiency Assessment in L2 English Learners [51.652753736780205]
英語の第二言語習熟度(L2)は通常、英語の教師や専門家の評価者によって知覚的に評価される。
本稿では, 音声信号と対応文字の双方に対処し, 総合的なL2習熟度評価のための深層学習手法について検討する。
論文 参考訳(メタデータ) (2025-05-05T12:36:03Z) - Deep Learning for Assessment of Oral Reading Fluency [5.707725771108279]
本研究は,人間専門家がラベル付けした物語テキストの子どもの音声記録の学習データセットのエンドツーエンドモデリングについて検討する。
本報告では,学習した語彙・音響・韻律的特徴の埋め込みが,読み流しの知覚に重要であることを示す。
論文 参考訳(メタデータ) (2024-05-29T18:09:35Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - On the effect of curriculum learning with developmental data for grammar
acquisition [4.4044968357361745]
この研究は、文法習得が言語の単純さによって引き起こされる程度と、データのソースモダリティ(音声対テキスト)について考察する。
特にBabyLMトレーニングコーパス(AO-Childes)とOpen Subtitles(Open Subtitles)の2つを対象とする。
論文 参考訳(メタデータ) (2023-10-31T20:05:30Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Automatic Analysis of the Emotional Content of Speech in Daylong
Child-Centered Recordings from a Neonatal Intensive Care Unit [3.7373314439051106]
フィンランドとエストニアの2つの病院から、幼児の音声環境から毎日何百時間もの録音が収集された。
本稿では、当初未発表の大規模実世界の音声データセットを導入し、フィンランドのサブセットを対象とした機能的SERシステムの開発について述べる。
最適性能モデルは73.4%の非重み付き平均リコールの分類性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-14T11:17:52Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。