論文の概要: Using State-of-the-Art Speech Models to Evaluate Oral Reading Fluency in
Ghana
- arxiv url: http://arxiv.org/abs/2310.17606v1
- Date: Thu, 26 Oct 2023 17:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:35:31.625043
- Title: Using State-of-the-Art Speech Models to Evaluate Oral Reading Fluency in
Ghana
- Title(参考訳): 最新音声モデルを用いたガーナの口腔読解能の評価
- Authors: Owen Henkel, Hannah Horne-Robinson, Libby Hills, Bill Roberts, Joshua
McGrane
- Abstract要約: 本稿では,ガーナの学生の口頭読解率(ORF)を評価するために,大規模音声モデルを用いた最近の3つの実験について報告する。
我々はWhisper V2が13.5の単語誤り率でガーナの学生の読み書きを生成することを発見した。
これは、成人スピーチにおけるモデルの平均的なWER(12.8)に近く、わずか数年前には子供の音声の書き起こしの最先端と見なされていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper reports on a set of three recent experiments utilizing large-scale
speech models to evaluate the oral reading fluency (ORF) of students in Ghana.
While ORF is a well-established measure of foundational literacy, assessing it
typically requires one-on-one sessions between a student and a trained
evaluator, a process that is time-consuming and costly. Automating the
evaluation of ORF could support better literacy instruction, particularly in
education contexts where formative assessment is uncommon due to large class
sizes and limited resources. To our knowledge, this research is among the first
to examine the use of the most recent versions of large-scale speech models
(Whisper V2 wav2vec2.0) for ORF assessment in the Global South.
We find that Whisper V2 produces transcriptions of Ghanaian students reading
aloud with a Word Error Rate of 13.5. This is close to the model's average WER
on adult speech (12.8) and would have been considered state-of-the-art for
children's speech transcription only a few years ago. We also find that when
these transcriptions are used to produce fully automated ORF scores, they
closely align with scores generated by expert human graders, with a correlation
coefficient of 0.96. Importantly, these results were achieved on a
representative dataset (i.e., students with regional accents, recordings taken
in actual classrooms), using a free and publicly available speech model out of
the box (i.e., no fine-tuning). This suggests that using large-scale speech
models to assess ORF may be feasible to implement and scale in lower-resource,
linguistically diverse educational contexts.
- Abstract(参考訳): 本稿では,ガーナの学生の口頭読解率(ORF)を評価するために,大規模音声モデルを用いた最近の3つの実験について報告する。
ORFは、基礎的リテラシーの確立された尺度である一方、学生と訓練された評価者の間の1対1のセッションは、時間と費用を要するプロセスである。
ORFの評価の自動化は、特に大きなクラスサイズと限られたリソースのために形式的評価が一般的でない教育環境において、より良いリテラシー教育を支援することができる。
我々の知る限り、この研究は、グローバル・サウスにおけるORF評価に、最新の大規模音声モデル(Whisper V2 wav2vec2.0)を用いた最初の研究である。
我々はWhisper V2が13.5の単語誤り率でガーナの学生の読み書きを生成することを発見した。
これはモデルの平均成人音声量(12.8)に近く、ほんの数年前に子供の音声の書き起こしに最先端のものと考えられていた。
また、これらの転写が完全に自動化されたORFスコアを生成する際には、専門家による評価値と密接に一致し、相関係数は0.96であることがわかった。
重要なことに、これらの結果は代表的データセット(例えば、地域のアクセントを持つ学生、実際の教室で撮影された録音)で達成され、ボックスから無料で公開されている音声モデルを用いて(微調整なし)。
これは、ORFを評価するために大規模音声モデルを使用することで、低リソースで言語学的に多様な教育的文脈で実装およびスケールすることが可能であることを示している。
関連論文リスト
- Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Reading Miscue Detection in Primary School through Automatic Speech Recognition [10.137389745562512]
本研究は,オランダ語母語話者の音声認識において,SOTA(State-of-the-art)事前学習モデルの有効性について検討した。
We found that Hubert Large finetuned on Dutch speech achieves SOTA phoneme-level child speech Recognition。
Wav2Vec2 Largeは最大リコール率0.83、Whisperは0.52、F1スコア0.52である。
論文 参考訳(メタデータ) (2024-06-11T08:41:21Z) - Who Said What? An Automated Approach to Analyzing Speech in Preschool Classrooms [0.4207829324073153]
本稿では,ソフトウェアを用いて話者を分類し,発話の書き起こしを行う自動フレームワークを提案する。
筆者らは,110分間の授業記録において,本フレームワークと人間専門家の結果を比較した。
その結果, 子どもの言語発達を支援する授業音声の分析において, かなり進歩したことが示唆された。
論文 参考訳(メタデータ) (2024-01-14T18:27:37Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - wav2vec and its current potential to Automatic Speech Recognition in
German for the usage in Digital History: A comparative assessment of
available ASR-technologies for the use in cultural heritage contexts [0.0]
我々は、ドイツ語の自動音声認識のための最先端のオープンソースモデルを訓練し、公開する。
我々は,デジタル人文科学と文化遺産インデックス化のより大きな文脈において,この技術の現在の可能性を評価する。
我々は、ASRがオーディオ・ビジュアル・ソースのドキュメンテーションと分析の鍵となる技術になると論じる。
論文 参考訳(メタデータ) (2023-03-06T22:24:31Z) - Proficiency assessment of L2 spoken English using wav2vec 2.0 [3.4012007729454816]
wav2vec 2.0 を用いて、2つの小さなデータセットの総合的および個別的な習熟度を評価する。
その結果,本手法は,ASRと手書きによる手書き文字起こしを訓練したBERTベースのベースラインシステムよりも有意に優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-24T12:36:49Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。