論文の概要: Non-native Children's Automatic Speech Assessment Challenge (NOCASA)
- arxiv url: http://arxiv.org/abs/2504.20678v1
- Date: Tue, 29 Apr 2025 11:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.879928
- Title: Non-native Children's Automatic Speech Assessment Challenge (NOCASA)
- Title(参考訳): NoCASA(No-native Children's Automatic Speech Assessment Challenge)
- Authors: Yaroslav Getman, Tamás Grósz, Mikko Kurimo, Giampiero Salvi,
- Abstract要約: NOCASAはIEEE MLSP 2025カンファレンスのデータコンペティションである。
若年第二言語(L2)学習者の単一単語発音を評価できるシステムを開発することを課題とする。
ノルウェー語205語を発音しようとする44人の話者から10,334の録音を含む擬似匿名化訓練データ(TeflonNorL2)を提供する。
- 参考スコア(独自算出の注目度): 15.921285405887009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the "Non-native Children's Automatic Speech Assessment" (NOCASA) - a data competition part of the IEEE MLSP 2025 conference. NOCASA challenges participants to develop new systems that can assess single-word pronunciations of young second language (L2) learners as part of a gamified pronunciation training app. To achieve this, several issues must be addressed, most notably the limited nature of available training data and the highly unbalanced distribution among the pronunciation level categories. To expedite the development, we provide a pseudo-anonymized training data (TeflonNorL2), containing 10,334 recordings from 44 speakers attempting to pronounce 205 distinct Norwegian words, human-rated on a 1 to 5 scale (number of stars that should be given in the game). In addition to the data, two already trained systems are released as official baselines: an SVM classifier trained on the ComParE_16 acoustic feature set and a multi-task wav2vec 2.0 model. The latter achieves the best performance on the challenge test set, with an unweighted average recall (UAR) of 36.37%.
- Abstract(参考訳): 本稿では,IEEE MLSP 2025 カンファレンスのデータコンペティションである "Non-native Children's Automatic Speech Assessment" (NOCASA) について述べる。
NOCASAは、若い第二言語(L2)学習者の単一単語発音をゲーミフィケーションされた発音訓練アプリの一部として評価できる新しいシステムを開発するために参加者に挑戦する。
これを実現するためには、いくつかの課題に対処する必要がある。特に、利用可能なトレーニングデータの限られた性質と、発音レベルカテゴリ間の高度にバランスの取れていない分布。
ノルウェー語205語を発音しようとする44人の話者から10,334の録音を1から5スケール(ゲームで与えられる星の数)で人間に評価する擬似匿名化訓練データ(TeflonNorL2)を提供する。
データに加えて、ComParE_16音響特徴セットでトレーニングされたSVM分類器とマルチタスクwav2vec 2.0モデルという、2つのトレーニング済みのシステムが公式ベースラインとしてリリースされた。
後者は挑戦テストセットで最高のパフォーマンスを達成し、平均リコール(UAR)は36.37%である。
関連論文リスト
- Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [84.03928547166873]
子どもたちは1億ワード未満の入力から言語を習得できる。
大規模な言語モデルはデータ効率がはるかに低く、通常は3~4桁以上のデータを必要とするが、多くの評価において人間ほど性能は高くない。
BabyLM Challengeは、参加者が固定データ予算で言語モデルトレーニングを最適化するために競う共同作業である。
論文 参考訳(メタデータ) (2025-04-10T23:22:43Z) - Speak & Improve Challenge 2025: Tasks and Baseline Systems [28.877872578497854]
Speak & Improve Challenge 2025: Spoken Language Assessment and Feedback"は、ISCA SLaTE 2025ワークショップに関連する課題である。
この課題の目標は、基礎技術と言語学習の両方のフィードバックに関連するタスクを用いて、音声言語アセスメントとフィードバックの研究を進めることである。
この課題には、自動音声認識(ASR)、音声言語アセスメント(SLA)、音声文法誤り訂正(SGEC)、音声文法誤り訂正フィードバック(SGECF)の4つの共通タスクがある。
論文 参考訳(メタデータ) (2024-12-16T17:05:18Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Dialect Adaptation and Data Augmentation for Low-Resource ASR: TalTech
Systems for the MADASR 2023 Challenge [2.018088271426157]
本稿では,ASRU MADASR 2023 Challengeのために開発されたタリン工科大学(TalTech)システムについて述べる。
この課題は、訓練された音声とテキストデータに制限がある方言に富んだインドの言語の自動音声認識に焦点を当てている。
TalTechは、提供されたトレーニングデータのみの使用を可能にするトラック1と、追加のオーディオデータの使用を可能にするトラック3の2つのトラックに参加した。
論文 参考訳(メタデータ) (2023-10-26T14:57:08Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - Low Resource German ASR with Untranscribed Data Spoken by Non-native
Children -- INTERSPEECH 2021 Shared Task SPAPL System [19.435571932141364]
本稿では,ドイツ語における非Native Children's Speechの音声認識における共有課題であるInterSPEECH 2021 ChallengeのSPAPLシステムについて述べる。
子ども向けのドイツのASRシステムを開発するために,5時間の転写データと60時間の非転写データを提供する。
書き起こしデータのトレーニングのために,音声発話における長周期非音声区間の影響を軽減するために,非音声状態判別損失(NSDL)を提案する。
本システムは,評価データに対して39.68%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-06-18T07:36:26Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Improving Proper Noun Recognition in End-to-End ASR By Customization of
the MWER Loss Criterion [33.043533068435366]
固有名詞は、エンドツーエンド(E2E)自動音声認識(ASR)システムに挑戦する。
従来のASRとは異なり、E2Eシステムは、固有名詞の発音で特別に訓練できる明示的な発音モデルを持たない。
本稿では, 単語誤り率(MWER)訓練の最近の進歩を基盤として, 固有名詞認識を特に重視する2つの新しい損失基準を開発する。
論文 参考訳(メタデータ) (2020-05-19T21:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。