論文の概要: Improving Child Speech Recognition and Reading Mistake Detection by Using Prompts
- arxiv url: http://arxiv.org/abs/2506.11079v1
- Date: Wed, 04 Jun 2025 05:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.556335
- Title: Improving Child Speech Recognition and Reading Mistake Detection by Using Prompts
- Title(参考訳): Promptsを用いた子どもの音声認識と読解ミス検出の改善
- Authors: Lingyun Gao, Cristian Tejedor-Garcia, Catia Cucchiarini, Helmer Strik,
- Abstract要約: オランダ語読み上げ音声における最先端の音声認識性能を達成した。
これにより読み誤りの検出が大幅に改善され、F1スコアは0.39から0.73に増加した。
- 参考スコア(独自算出の注目度): 10.137389745562512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic reading aloud evaluation can provide valuable support to teachers by enabling more efficient scoring of reading exercises. However, research on reading evaluation systems and applications remains limited. We present a novel multimodal approach that leverages audio and knowledge from text resources. In particular, we explored the potential of using Whisper and instruction-tuned large language models (LLMs) with prompts to improve transcriptions for child speech recognition, as well as their effectiveness in downstream reading mistake detection. Our results demonstrate the effectiveness of prompting Whisper and prompting LLM, compared to the baseline Whisper model without prompting. The best performing system achieved state-of-the-art recognition performance in Dutch child read speech, with a word error rate (WER) of 5.1%, improving the baseline WER of 9.4%. Furthermore, it significantly improved reading mistake detection, increasing the F1 score from 0.39 to 0.73.
- Abstract(参考訳): 自動読解評価は、より効率的な読解演習のスコアリングを可能にすることで、教師に貴重な支援を提供することができる。
しかし、読影評価システムや応用に関する研究は依然として限られている。
テキストリソースから音声と知識を活用する新しいマルチモーダルアプローチを提案する。
特に,Whisper と命令調整型大言語モデル (LLMs) の使用の可能性を検討した。
本研究は,Whisperモデルと比較し,WhisperモデルとLLMモデルの有効性を示した。
オランダ語読み上げ音声の最先端認識性能は、単語誤り率(WER)が5.1%、ベースラインWERが9.4%向上した。
さらに、読み誤りの検出を大幅に改善し、F1スコアを0.39から0.73に引き上げた。
関連論文リスト
- Reading Miscue Detection in Primary School through Automatic Speech Recognition [10.137389745562512]
本研究は,オランダ語母語話者の音声認識において,SOTA(State-of-the-art)事前学習モデルの有効性について検討した。
We found that Hubert Large finetuned on Dutch speech achieves SOTA phoneme-level child speech Recognition。
Wav2Vec2 Largeは最大リコール率0.83、Whisperは0.52、F1スコア0.52である。
論文 参考訳(メタデータ) (2024-06-11T08:41:21Z) - Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults [4.765434968114876]
我々は、より効率的なデータ前処理により、MySTデータセットの有用性を高める。
この改善は、目に見えないデータセットに一般化できることを示す。
その結果,Whisperの有効かつ効率的な統合が,効果的な子どもの音声認識に有効であることが示された。
論文 参考訳(メタデータ) (2023-09-12T06:58:18Z) - Leveraging Visemes for Better Visual Speech Representation and Lip
Reading [2.7836084563851284]
そこで本研究では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
論文 参考訳(メタデータ) (2023-07-19T17:38:26Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Automatic Assessment of Oral Reading Accuracy for Reading Diagnostics [9.168525887419388]
Kaldi と Whisper を用いて,オランダ語読解精度を自動評価するための6つの最先端 ASR システムの評価を行った。
その結果、我々の最も成功したシステムは人的評価と実質的な合意に達した。
論文 参考訳(メタデータ) (2023-06-06T06:49:58Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Improved Noisy Student Training for Automatic Speech Recognition [89.8397907990268]
雑音学習」は,ネットワーク性能向上のために拡張を活用した反復的自己学習手法である。
自己学習イテレーション間で生成されたデータをフィルタリング、バランス、拡張する効果的な方法を見つけます。
我々は、LibriSpeech 100h (4.74%/12.20%)とLibriSpeech (1.9%/4.1%)で達成された、最先端のクリーン/ノイズテストWERを改善することができる。
論文 参考訳(メタデータ) (2020-05-19T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。