論文の概要: Using State-of-the-Art Speech Models to Evaluate Oral Reading Fluency in
Ghana
- arxiv url: http://arxiv.org/abs/2310.17606v1
- Date: Thu, 26 Oct 2023 17:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:35:31.625043
- Title: Using State-of-the-Art Speech Models to Evaluate Oral Reading Fluency in
Ghana
- Title(参考訳): 最新音声モデルを用いたガーナの口腔読解能の評価
- Authors: Owen Henkel, Hannah Horne-Robinson, Libby Hills, Bill Roberts, Joshua
McGrane
- Abstract要約: 本稿では,ガーナの学生の口頭読解率(ORF)を評価するために,大規模音声モデルを用いた最近の3つの実験について報告する。
我々はWhisper V2が13.5の単語誤り率でガーナの学生の読み書きを生成することを発見した。
これは、成人スピーチにおけるモデルの平均的なWER(12.8)に近く、わずか数年前には子供の音声の書き起こしの最先端と見なされていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper reports on a set of three recent experiments utilizing large-scale
speech models to evaluate the oral reading fluency (ORF) of students in Ghana.
While ORF is a well-established measure of foundational literacy, assessing it
typically requires one-on-one sessions between a student and a trained
evaluator, a process that is time-consuming and costly. Automating the
evaluation of ORF could support better literacy instruction, particularly in
education contexts where formative assessment is uncommon due to large class
sizes and limited resources. To our knowledge, this research is among the first
to examine the use of the most recent versions of large-scale speech models
(Whisper V2 wav2vec2.0) for ORF assessment in the Global South.
We find that Whisper V2 produces transcriptions of Ghanaian students reading
aloud with a Word Error Rate of 13.5. This is close to the model's average WER
on adult speech (12.8) and would have been considered state-of-the-art for
children's speech transcription only a few years ago. We also find that when
these transcriptions are used to produce fully automated ORF scores, they
closely align with scores generated by expert human graders, with a correlation
coefficient of 0.96. Importantly, these results were achieved on a
representative dataset (i.e., students with regional accents, recordings taken
in actual classrooms), using a free and publicly available speech model out of
the box (i.e., no fine-tuning). This suggests that using large-scale speech
models to assess ORF may be feasible to implement and scale in lower-resource,
linguistically diverse educational contexts.
- Abstract(参考訳): 本稿では,ガーナの学生の口頭読解率(ORF)を評価するために,大規模音声モデルを用いた最近の3つの実験について報告する。
ORFは、基礎的リテラシーの確立された尺度である一方、学生と訓練された評価者の間の1対1のセッションは、時間と費用を要するプロセスである。
ORFの評価の自動化は、特に大きなクラスサイズと限られたリソースのために形式的評価が一般的でない教育環境において、より良いリテラシー教育を支援することができる。
我々の知る限り、この研究は、グローバル・サウスにおけるORF評価に、最新の大規模音声モデル(Whisper V2 wav2vec2.0)を用いた最初の研究である。
我々はWhisper V2が13.5の単語誤り率でガーナの学生の読み書きを生成することを発見した。
これはモデルの平均成人音声量(12.8)に近く、ほんの数年前に子供の音声の書き起こしに最先端のものと考えられていた。
また、これらの転写が完全に自動化されたORFスコアを生成する際には、専門家による評価値と密接に一致し、相関係数は0.96であることがわかった。
重要なことに、これらの結果は代表的データセット(例えば、地域のアクセントを持つ学生、実際の教室で撮影された録音)で達成され、ボックスから無料で公開されている音声モデルを用いて(微調整なし)。
これは、ORFを評価するために大規模音声モデルを使用することで、低リソースで言語学的に多様な教育的文脈で実装およびスケールすることが可能であることを示している。
関連論文リスト
- Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - Who Said What? An Automated Approach to Analyzing Speech in Preschool Classrooms [0.4207829324073153]
本稿では,ソフトウェアを用いて話者を分類し,発話の書き起こしを行う自動フレームワークを提案する。
筆者らは,110分間の授業記録において,本フレームワークと人間専門家の結果を比較した。
その結果, 子どもの言語発達を支援する授業音声の分析において, かなり進歩したことが示唆された。
論文 参考訳(メタデータ) (2024-01-14T18:27:37Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - wav2vec and its current potential to Automatic Speech Recognition in
German for the usage in Digital History: A comparative assessment of
available ASR-technologies for the use in cultural heritage contexts [0.0]
我々は、ドイツ語の自動音声認識のための最先端のオープンソースモデルを訓練し、公開する。
我々は,デジタル人文科学と文化遺産インデックス化のより大きな文脈において,この技術の現在の可能性を評価する。
我々は、ASRがオーディオ・ビジュアル・ソースのドキュメンテーションと分析の鍵となる技術になると論じる。
論文 参考訳(メタデータ) (2023-03-06T22:24:31Z) - Proficiency assessment of L2 spoken English using wav2vec 2.0 [3.4012007729454816]
wav2vec 2.0 を用いて、2つの小さなデータセットの総合的および個別的な習熟度を評価する。
その結果,本手法は,ASRと手書きによる手書き文字起こしを訓練したBERTベースのベースラインシステムよりも有意に優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-24T12:36:49Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Analysis of Disfluency in Children's Speech [25.68434431663045]
対象児26名(年齢5~8歳)の自覚的説明の非効率性を示す新しいデータセットを提案する。
子どもたちは、拡散率とフィラー率が高く、鼻腔充填の停止を頻繁に使う傾向があり、平均すると修復よりも長い逆行性を示す。
違いはあるものの、大人(スイッチボード)の音声書き起こしで訓練された自動不規則検出システムは、子どもの音声に対して合理的に良好に機能する。
論文 参考訳(メタデータ) (2020-10-08T22:51:25Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。