論文の概要: Who Said What? An Automated Approach to Analyzing Speech in Preschool
Classrooms
- arxiv url: http://arxiv.org/abs/2401.07342v1
- Date: Sun, 14 Jan 2024 18:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 18:44:33.252626
- Title: Who Said What? An Automated Approach to Analyzing Speech in Preschool
Classrooms
- Title(参考訳): 誰が言った?
幼児教室における音声分析の自動化
- Authors: Anchen Sun, Juan J Londono, Batya Elbaum, Luis Estrada, Roberto Jose
Lazo, Laura Vitale, Hugo Gonzalez Villasanti, Riccardo Fusaroli, Lynn K
Perry, Daniel S Messinger
- Abstract要約: 本稿では,ソフトウェアを用いて話者を分類し,発話の書き起こしを行う自動フレームワークを提案する。
筆者らは,110分間の授業記録において,本フレームワークと人間専門家の結果を比較した。
その結果, 子どもの言語発達を支援する授業音声の分析において, かなり進歩したことが示唆された。
- 参考スコア(独自算出の注目度): 0.4347837200266259
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Young children spend substantial portions of their waking hours in noisy
preschool classrooms. In these environments, children's vocal interactions with
teachers are critical contributors to their language outcomes, but manually
transcribing these interactions is prohibitive. Using audio from child- and
teacher-worn recorders, we propose an automated framework that uses open source
software both to classify speakers (ALICE) and to transcribe their utterances
(Whisper). We compare results from our framework to those from a human expert
for 110 minutes of classroom recordings, including 85 minutes from child-word
microphones (n=4 children) and 25 minutes from teacher-worn microphones (n=2
teachers). The overall proportion of agreement, that is, the proportion of
correctly classified teacher and child utterances, was .76, with an
error-corrected kappa of .50 and a weighted F1 of .76. The word error rate for
both teacher and child transcriptions was .15, meaning that 15% of words would
need to be deleted, added, or changed to equate the Whisper and expert
transcriptions. Moreover, speech features such as the mean length of utterances
in words, the proportion of teacher and child utterances that were questions,
and the proportion of utterances that were responded to within 2.5 seconds were
similar when calculated separately from expert and automated transcriptions.
The results suggest substantial progress in analyzing classroom speech that may
support children's language development. Future research using natural language
processing is underway to improve speaker classification and to analyze results
from the application of the automated it framework to a larger dataset
containing classroom recordings from 13 children and 4 teachers observed on 17
occasions over one year.
- Abstract(参考訳): 幼児は、騒音の多い幼稚園の教室で覚醒時間の大部分を過ごします。
これらの環境では、教師との子どもの音声対話は言語結果に重要な貢献者であるが、手動による対話の翻訳は禁止されている。
児童・教師向けレコーダーの音声を用いて,話者分類(ALICE)と発話書き起こし(Whisper)の両方にオープンソースソフトウェアを利用する自動フレームワークを提案する。
本研究では,110分間の授業記録において,児童語マイクロフォン(n=4児)から85分間,教師・女性マイクロホン(n=2教師)から25分間の成績を比較した。
すなわち、正しく分類された教師と子供の発話の割合は.76であり、誤り訂正されたカッパは.50、重み付けされたF1は.76である。
教師と児童の書き起こしにおける単語エラー率は .15 であり、Whisper と専門家の書き起こしを同等にするためには、15%の単語を削除、追加、あるいは変更する必要がある。
また, 単語の平均発話長, 質問文である教師と児童の発話率, 2.5秒以内で回答した発話の割合などの音声特徴は, 専門家と自動書き起こしとは別々に計算した場合に類似していた。
その結果, 児童の言語発達を支援する教室音声の分析の進歩が示唆された。
自然言語処理を用いた今後の研究は、話者分類の改善と、自動化された学習フレームワークの適用から、13人の子供と4人の教師が1年間に17回観察した教室記録を含むより大きなデータセットまでの分析が進められている。
関連論文リスト
- Using State-of-the-Art Speech Models to Evaluate Oral Reading Fluency in
Ghana [0.0]
本稿では,ガーナの学生の口頭読解率(ORF)を評価するために,大規模音声モデルを用いた最近の3つの実験について報告する。
我々はWhisper V2が13.5の単語誤り率でガーナの学生の読み書きを生成することを発見した。
これは、成人スピーチにおけるモデルの平均的なWER(12.8)に近く、わずか数年前には子供の音声の書き起こしの最先端と見なされていた。
論文 参考訳(メタデータ) (2023-10-26T17:30:13Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Building a Non-native Speech Corpus Featuring Chinese-English Bilingual
Children: Compilation and Rationale [3.924235219960689]
本稿では,5歳から6歳までの中英語児童の物語から成る非母語音声コーパスについて紹介する。
英語(L2)で物語理解テストを受ける子どもの合計6.5時間について,人格スコアや文法的・発音的誤りの注釈とともに紹介する。
子どもたちは中国語(L1)での並行MAIN試験も参照目的に完了した。
論文 参考訳(メタデータ) (2023-04-30T10:41:43Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of
Transcribed Audio [88.20960848885575]
GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。
約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。
システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
論文 参考訳(メタデータ) (2021-06-13T04:09:16Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Senone-aware Adversarial Multi-task Training for Unsupervised Child to
Adult Speech Adaptation [26.065719754453823]
本研究では,成人音声と幼児音声のセノンレベルにおける音響ミスマッチを最小限に抑える特徴適応手法を提案する。
提案手法は, 児童音声認識, 児童発音評価, 児童流動度スコア予測の3つのタスクで検証した。
論文 参考訳(メタデータ) (2021-02-23T04:49:27Z) - Analysis of Disfluency in Children's Speech [25.68434431663045]
対象児26名(年齢5~8歳)の自覚的説明の非効率性を示す新しいデータセットを提案する。
子どもたちは、拡散率とフィラー率が高く、鼻腔充填の停止を頻繁に使う傾向があり、平均すると修復よりも長い逆行性を示す。
違いはあるものの、大人(スイッチボード)の音声書き起こしで訓練された自動不規則検出システムは、子どもの音声に対して合理的に良好に機能する。
論文 参考訳(メタデータ) (2020-10-08T22:51:25Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。