Fugu-MT 論文翻訳(概要): Using State-of-the-Art Speech Models to Evaluate Oral Reading Fluency in Ghana

論文の概要: Using State-of-the-Art Speech Models to Evaluate Oral Reading Fluency in Ghana

arxiv url: http://arxiv.org/abs/2310.17606v1
Date: Thu, 26 Oct 2023 17:30:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 18:35:31.625043
Title: Using State-of-the-Art Speech Models to Evaluate Oral Reading Fluency in Ghana
Title（参考訳）: 最新音声モデルを用いたガーナの口腔読解能の評価
Authors: Owen Henkel, Hannah Horne-Robinson, Libby Hills, Bill Roberts, Joshua McGrane
Abstract要約: 本稿では,ガーナの学生の口頭読解率(ORF)を評価するために,大規模音声モデルを用いた最近の3つの実験について報告する。我々はWhisper V2が13.5の単語誤り率でガーナの学生の読み書きを生成することを発見した。これは、成人スピーチにおけるモデルの平均的なWER(12.8)に近く、わずか数年前には子供の音声の書き起こしの最先端と見なされていた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper reports on a set of three recent experiments utilizing large-scale speech models to evaluate the oral reading fluency (ORF) of students in Ghana. While ORF is a well-established measure of foundational literacy, assessing it typically requires one-on-one sessions between a student and a trained evaluator, a process that is time-consuming and costly. Automating the evaluation of ORF could support better literacy instruction, particularly in education contexts where formative assessment is uncommon due to large class sizes and limited resources. To our knowledge, this research is among the first to examine the use of the most recent versions of large-scale speech models (Whisper V2 wav2vec2.0) for ORF assessment in the Global South. We find that Whisper V2 produces transcriptions of Ghanaian students reading aloud with a Word Error Rate of 13.5. This is close to the model's average WER on adult speech (12.8) and would have been considered state-of-the-art for children's speech transcription only a few years ago. We also find that when these transcriptions are used to produce fully automated ORF scores, they closely align with scores generated by expert human graders, with a correlation coefficient of 0.96. Importantly, these results were achieved on a representative dataset (i.e., students with regional accents, recordings taken in actual classrooms), using a free and publicly available speech model out of the box (i.e., no fine-tuning). This suggests that using large-scale speech models to assess ORF may be feasible to implement and scale in lower-resource, linguistically diverse educational contexts.
Abstract（参考訳）: 本稿では,ガーナの学生の口頭読解率(ORF)を評価するために,大規模音声モデルを用いた最近の3つの実験について報告する。 ORFは、基礎的リテラシーの確立された尺度である一方、学生と訓練された評価者の間の1対1のセッションは、時間と費用を要するプロセスである。 ORFの評価の自動化は、特に大きなクラスサイズと限られたリソースのために形式的評価が一般的でない教育環境において、より良いリテラシー教育を支援することができる。我々の知る限り、この研究は、グローバル・サウスにおけるORF評価に、最新の大規模音声モデル(Whisper V2 wav2vec2.0)を用いた最初の研究である。我々はWhisper V2が13.5の単語誤り率でガーナの学生の読み書きを生成することを発見した。これはモデルの平均成人音声量(12.8)に近く、ほんの数年前に子供の音声の書き起こしに最先端のものと考えられていた。また、これらの転写が完全に自動化されたORFスコアを生成する際には、専門家による評価値と密接に一致し、相関係数は0.96であることがわかった。重要なことに、これらの結果は代表的データセット(例えば、地域のアクセントを持つ学生、実際の教室で撮影された録音)で達成され、ボックスから無料で公開されている音声モデルを用いて(微調整なし)。これは、ORFを評価するために大規模音声モデルを使用することで、低リソースで言語学的に多様な教育的文脈で実装およびスケールすることが可能であることを示している。

関連論文リスト

An End-to-End Approach for Child Reading Assessment in the Xhosa Language [0.3579433677269426]
本研究は, 南アフリカで話されている言語であるXhosaに着目し, 子どもの音声認識能力を向上させることを目的とした。本稿では,Xhosaにおける児童音声サンプルからなる新しいデータセットを提案する。その結果、これらのモデルの性能は、利用可能なトレーニングデータの量とバランスに大きく影響されることが示唆された。
論文参考訳（メタデータ） (2025-05-23T00:59:58Z)
Who Said What WSW 2.0? Enhanced Automated Analysis of Preschool Classroom Speech [24.034728707160497]
本稿では,幼児教室における音声対話の分析を行うためのフレームワークWSW2.0を提案する。 WSW2.0は、重み付きF1スコアが.845、精度が.846、話者分類のための誤り訂正Kappaが.672に達する(子対教師) このフレームワークを,2年間および1,592時間以上の教室オーディオ録音を対象とする広範囲なデータセットに適用する。
論文参考訳（メタデータ） (2025-05-15T05:21:34Z)
Automatic Proficiency Assessment in L2 English Learners [51.652753736780205]
英語の第二言語習熟度(L2)は通常、英語の教師や専門家の評価者によって知覚的に評価される。本稿では, 音声信号と対応文字の双方に対処し, 総合的なL2習熟度評価のための深層学習手法について検討する。
論文参考訳（メタデータ） (2025-05-05T12:36:03Z)
Self-Supervised Models for Phoneme Recognition: Applications in Children's Speech for Reading Learning [9.670752318129326]
まず, フランス語音声における音素認識に適応したwav2vec 2.0, HuBERT, WavLMモデルを比較した。次に,子音の微調整中に変圧器ブロックを解凍することで適応する。 We show that WavLM base+ is more robust to various reading task and noise levels。
論文参考訳（メタデータ） (2025-03-06T18:57:16Z)
Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文参考訳（メタデータ） (2024-09-23T02:34:42Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
Reading Miscue Detection in Primary School through Automatic Speech Recognition [10.137389745562512]
本研究は,オランダ語母語話者の音声認識において,SOTA(State-of-the-art)事前学習モデルの有効性について検討した。 We found that Hubert Large finetuned on Dutch speech achieves SOTA phoneme-level child speech Recognition。 Wav2Vec2 Largeは最大リコール率0.83、Whisperは0.52、F1スコア0.52である。
論文参考訳（メタデータ） (2024-06-11T08:41:21Z)
Who Said What? An Automated Approach to Analyzing Speech in Preschool Classrooms [0.4207829324073153]
本稿では,ソフトウェアを用いて話者を分類し,発話の書き起こしを行う自動フレームワークを提案する。筆者らは,110分間の授業記録において,本フレームワークと人間専門家の結果を比較した。その結果, 子どもの言語発達を支援する授業音声の分析において, かなり進歩したことが示唆された。
論文参考訳（メタデータ） (2024-01-14T18:27:37Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
wav2vec and its current potential to Automatic Speech Recognition in German for the usage in Digital History: A comparative assessment of available ASR-technologies for the use in cultural heritage contexts [0.0]
我々は、ドイツ語の自動音声認識のための最先端のオープンソースモデルを訓練し、公開する。我々は,デジタル人文科学と文化遺産インデックス化のより大きな文脈において,この技術の現在の可能性を評価する。我々は、ASRがオーディオ・ビジュアル・ソースのドキュメンテーションと分析の鍵となる技術になると論じる。
論文参考訳（メタデータ） (2023-03-06T22:24:31Z)
Proficiency assessment of L2 spoken English using wav2vec 2.0 [3.4012007729454816]
wav2vec 2.0 を用いて、2つの小さなデータセットの総合的および個別的な習熟度を評価する。その結果,本手法は,ASRと手書きによる手書き文字起こしを訓練したBERTベースのベースラインシステムよりも有意に優れていることがわかった。
論文参考訳（メタデータ） (2022-10-24T12:36:49Z)
Nonwords Pronunciation Classification in Language Development Tests for Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文参考訳（メタデータ） (2022-06-16T10:19:47Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文参考訳（メタデータ） (2021-06-11T20:15:21Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。