論文の概要: Transcribing Children's Speech: ASR Performance and Obtaining Reliable Orthographic Transcriptions
- arxiv url: http://arxiv.org/abs/2605.28833v1
- Date: Fri, 10 Apr 2026 13:32:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.548498
- Title: Transcribing Children's Speech: ASR Performance and Obtaining Reliable Orthographic Transcriptions
- Title(参考訳): 子どもの音声の書き起こし:ASRのパフォーマンスと信頼性の高いオーソグラフィーの書き起こし
- Authors: Gus Lathouwers, Lingyun Gao, Catia Cucchiarini, Helmer Strik,
- Abstract要約: 本研究では,2つの研究課題を通じて,最先端のASRモデルが幼児音声に与える影響について検討した。
微調整されたWhisper-mediumモデルでは、JASMINが5.54%、DARTが70.37%という、全体的なパフォーマンスが最高である。
我々は、ASR出力と元の読み出しプロンプトとを比較した発話レベル選択法を用いて、正しく発音された録音を識別する。
- 参考スコア(独自算出の注目度): 8.773220566254972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) has the potential to substantially reduce manual annotation effort in child speech research by generating automatic transcriptions. However, obtaining reliably high-quality ASR transcriptions for child speech remains challenging in low-resource languages due to limited child-specific pre-trained models and highly diverse noise conditions. This study investigates the effectiveness of state-of-the-art ASR models on child speech through two research questions, by evaluating nine ASR models from three model families (Whisper, Parakeet, and Wav2Vec2) on two Dutch child speech datasets, JASMIN and DART. Research question 1 examines the performance of ASR-models applied to child speech. The fine-tuned Whisper-medium model achieves the best overall performance, with a WER of 5.54% on JASMIN and 70.37% on DART, showing that the noisy DART data are clearly more challenging. Research question 2 examines to what extent it is possible to select a subset for which reliable orthographic transcriptions can be obtained automatically, without the need for manual verification. We use an utterance-level selection method that compares ASR output with the original read prompt to identify correctly pronounced recordings. Using the proposed selection method, 42.0% [for JASMIN] and 18.1% [for DART] of the utterances can be automatically identified as correctly pronounced with high confidence, resulting in very low error rates on an utterance level (precisions of 98.3% and higher) and reducing the need for manual verification.
- Abstract(参考訳): 自動音声認識(ASR)は、自動転写を生成することにより、児童音声研究における手動アノテーションの労力を大幅に削減する可能性がある。
しかし,低リソース言語では,子ども固有の事前学習モデルや非常に多様なノイズ条件のため,確実に高品質なASR転写が得られない。
本研究では,オランダの3つのモデルファミリー(Whisper,Parakeet,Wav2Vec2)から,JASMINとDARTという2つの幼児音声データセットを用いて,9つのASRモデルを評価することにより,幼児音声に対する最先端のASRモデルの有効性について検討した。
研究課題1は、子どもの発話に適用されるASRモデルの性能について検討する。
微調整されたWhisper-mediumモデルは、JASMINで5.54%、DARTで70.37%のWERで最高のパフォーマンスを達成しており、ノイズの多いDARTデータの方が明らかに困難であることを示している。
研究課題2は、手作業による検証を必要とせずに、信頼できる正書法転写を自動で得るサブセットをどの程度選択できるかを検討する。
我々は、ASR出力と元の読み出しプロンプトとを比較した発話レベル選択法を用いて、正しく発音された録音を識別する。
提案手法を用いて, 発話の42.0%(JASMIN)と18.1%(DART)を自動的に高い信頼度で正しく発音し, 発話レベルの誤り率(98.3%以上)を極めて低くし, 手動検証の必要性を低減できる。
関連論文リスト
- Utterance-Level Methods for Identifying Reliable ASR-Output for Child Speech [8.773220566254972]
発話レベルで信頼性のあるASR出力を選択するための2つのアプローチ、信頼性のある読み出し音声を選択するための1つ、対話音声材料のための1つ。
評価は英語とオランダ語のデータセットで行われ、それぞれがベースラインと微調整されたモデルで実施された。
その結果, 音声記録を確実に転写する発話レベル選択法は, 読解音声と対話音声の双方において, 最良の戦略(P > 97.4)の精度が高いことがわかった。
論文 参考訳(メタデータ) (2026-04-10T18:03:49Z) - Qwen3-ASR Technical Report [71.87071808763484]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文 参考訳(メタデータ) (2026-01-29T06:58:13Z) - Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。
SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。
年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文 参考訳(メタデータ) (2025-08-22T17:59:35Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Improving child speech recognition with augmented child-like speech [20.709414063132627]
言語間の子子間音声変換は、子どものASR性能を著しく改善した。
最先端のASRは、子どものスピーチに最適なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-12T08:56:46Z) - Reading Miscue Detection in Primary School through Automatic Speech Recognition [10.137389745562512]
本研究は,オランダ語母語話者の音声認識において,SOTA(State-of-the-art)事前学習モデルの有効性について検討した。
We found that Hubert Large finetuned on Dutch speech achieves SOTA phoneme-level child speech Recognition。
Wav2Vec2 Largeは最大リコール率0.83、Whisperは0.52、F1スコア0.52である。
論文 参考訳(メタデータ) (2024-06-11T08:41:21Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。