論文の概要: Who Said What WSW 2.0? Enhanced Automated Analysis of Preschool Classroom Speech
- arxiv url: http://arxiv.org/abs/2505.09972v1
- Date: Thu, 15 May 2025 05:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.19299
- Title: Who Said What WSW 2.0? Enhanced Automated Analysis of Preschool Classroom Speech
- Title(参考訳): WSW 2.0って誰? 就学前授業音声の自動分析の強化
- Authors: Anchen Sun, Tiantian Feng, Gabriela Gutierrez, Juan J Londono, Anfeng Xu, Batya Elbaum, Shrikanth Narayanan, Lynn K Perry, Daniel S Messinger,
- Abstract要約: 本稿では,幼児教室における音声対話の分析を行うためのフレームワークWSW2.0を提案する。
WSW2.0は、重み付きF1スコアが.845、精度が.846、話者分類のための誤り訂正Kappaが.672に達する(子対教師)
このフレームワークを,2年間および1,592時間以上の教室オーディオ録音を対象とする広範囲なデータセットに適用する。
- 参考スコア(独自算出の注目度): 24.034728707160497
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces an automated framework WSW2.0 for analyzing vocal interactions in preschool classrooms, enhancing both accuracy and scalability through the integration of wav2vec2-based speaker classification and Whisper (large-v2 and large-v3) speech transcription. A total of 235 minutes of audio recordings (160 minutes from 12 children and 75 minutes from 5 teachers), were used to compare system outputs to expert human annotations. WSW2.0 achieves a weighted F1 score of .845, accuracy of .846, and an error-corrected kappa of .672 for speaker classification (child vs. teacher). Transcription quality is moderate to high with word error rates of .119 for teachers and .238 for children. WSW2.0 exhibits relatively high absolute agreement intraclass correlations (ICC) with expert transcriptions for a range of classroom language features. These include teacher and child mean utterance length, lexical diversity, question asking, and responses to questions and other utterances, which show absolute agreement intraclass correlations between .64 and .98. To establish scalability, we apply the framework to an extensive dataset spanning two years and over 1,592 hours of classroom audio recordings, demonstrating the framework's robustness for broad real-world applications. These findings highlight the potential of deep learning and natural language processing techniques to revolutionize educational research by providing accurate measures of key features of preschool classroom speech, ultimately guiding more effective intervention strategies and supporting early childhood language development.
- Abstract(参考訳): 本稿では, 幼児教室における音声対話分析のためのWSW2.0の自動フレームワークを提案し, wav2vec2に基づく話者分類とWhisper(大規模v2と大規模v3)音声書き起こしの統合により, 精度とスケーラビリティの両立を図る。
計235分間の音声録音(12人の子供から160分、5教師から75分)を用いて、システム出力と専門家の注釈を比較した。
WSW2.0は重み付きF1スコアが.845、精度が.846、話者分類のための誤り訂正カッパが.672である(児童対教師)。
転写品質は、教師の単語誤り率.119、子供の.238と中程度から高い。
WSW2.0は、クラス内相関 (ICC) が比較的高い絶対値を示しており、様々な教室言語の特徴について専門家の書き起こしがある。
教師と児童の平均発話長、語彙の多様性、質問への回答、その他の発話は、.64と.98の絶対的なクラス内相関を示す。
拡張性を確立するために,2年間および1,592時間以上の教室オーディオ録音を対象とする広範囲なデータセットに適用した。
これらの知見は,就学前スピーチの重要な特徴を正確に測定し,より効果的な介入戦略を導出し,幼児期の言語発達を支援することによって,教育研究に革命をもたらすための深層学習と自然言語処理技術の可能性を強調した。
関連論文リスト
- Automatic Proficiency Assessment in L2 English Learners [51.652753736780205]
英語の第二言語習熟度(L2)は通常、英語の教師や専門家の評価者によって知覚的に評価される。
本稿では, 音声信号と対応文字の双方に対処し, 総合的なL2習熟度評価のための深層学習手法について検討する。
論文 参考訳(メタデータ) (2025-05-05T12:36:03Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Who Said What? An Automated Approach to Analyzing Speech in Preschool Classrooms [0.4207829324073153]
本稿では,ソフトウェアを用いて話者を分類し,発話の書き起こしを行う自動フレームワークを提案する。
筆者らは,110分間の授業記録において,本フレームワークと人間専門家の結果を比較した。
その結果, 子どもの言語発達を支援する授業音声の分析において, かなり進歩したことが示唆された。
論文 参考訳(メタデータ) (2024-01-14T18:27:37Z) - Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-08T07:48:25Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。