論文の概要: Can Layer-wise SSL Features Improve Zero-Shot ASR Performance for Children's Speech?
- arxiv url: http://arxiv.org/abs/2508.21225v1
- Date: Thu, 28 Aug 2025 21:32:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.88028
- Title: Can Layer-wise SSL Features Improve Zero-Shot ASR Performance for Children's Speech?
- Title(参考訳): レイヤワイドSSLは子どもの音声におけるゼロショットASR性能を向上できるか?
- Authors: Abhijit Sinha, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Shrikanth Narayanan,
- Abstract要約: 本研究では、最先端SSL事前訓練モデルから抽出した階層的特徴が、ゼロショットシナリオにおける子供の発話におけるASRの性能向上に有効であることを示す。
分析では、ゼロショットシナリオにおいて、子どもの発話におけるASRパフォーマンスを向上させる最も効果的なレイヤを特定した。
- 参考スコア(独自算出の注目度): 43.31597557333867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) systems often struggle to accurately process children's speech due to its distinct and highly variable acoustic and linguistic characteristics. While recent advancements in self-supervised learning (SSL) models have greatly enhanced the transcription of adult speech, accurately transcribing children's speech remains a significant challenge. This study investigates the effectiveness of layer-wise features extracted from state-of-the-art SSL pre-trained models - specifically, Wav2Vec2, HuBERT, Data2Vec, and WavLM in improving the performance of ASR for children's speech in zero-shot scenarios. A detailed analysis of features extracted from these models was conducted, integrating them into a simplified DNN-based ASR system using the Kaldi toolkit. The analysis identified the most effective layers for enhancing ASR performance on children's speech in a zero-shot scenario, where WSJCAM0 adult speech was used for training and PFSTAR children speech for testing. Experimental results indicated that Layer 22 of the Wav2Vec2 model achieved the lowest Word Error Rate (WER) of 5.15%, representing a 51.64% relative improvement over the direct zero-shot decoding using Wav2Vec2 (WER of 10.65%). Additionally, age group-wise analysis demonstrated consistent performance improvements with increasing age, along with significant gains observed even in younger age groups using the SSL features. Further experiments on the CMU Kids dataset confirmed similar trends, highlighting the generalizability of the proposed approach.
- Abstract(参考訳): 自動音声認識(ASR)システムは、区別され、高度に変動する音響特性と言語特性のために、子供の発話を正確に処理するのに苦労することが多い。
近年の自己教師型学習(SSL)モデルの進歩は成人期の音声の転写を著しく向上させているが、子供の音声を正確に転写することは大きな課題である。
本研究では、最先端のSSL事前訓練モデル、具体的には、Wav2Vec2、HuBERT、Data2Vec、WavLMから抽出した階層的特徴が、ゼロショットシナリオにおける子供の発話におけるASRの性能向上に有効であることを示す。
これらのモデルから抽出した特徴の詳細な分析を行い、カルディツールキットを用いたDNNベースのASRシステムに統合した。
分析では、WSJCAM0 の成人スピーチを訓練に、PFSTAR の子供スピーチを試験に用いたゼロショットシナリオにおいて、子どもの音声における ASR 性能を高めるための最も効果的なレイヤーを特定した。
実験の結果、Wav2Vec2モデルのレイヤ22はワード誤り率(WER)が5.15%で、Wav2Vec2(WERは10.65%)を使用した直接ゼロショットデコーディングに比べて51.64%改善した。
さらに, 年齢群別分析では, 年齢の増加に伴う一貫したパフォーマンス向上がみられ, SSL機能を用いた若年群においても有意な改善が見られた。
CMU Kidsデータセットに関するさらなる実験は、同様の傾向を確認し、提案手法の一般化性を強調した。
関連論文リスト
- Zero-Shot KWS for Children's Speech using Layer-Wise Features from SSL Models [12.976537689930373]
本稿では,最先端の自己教師付き学習(SSL)モデルを活用したゼロショットKWS手法を提案する。
機能はこれらのSSLモデルから階層的に抽出され、カルディベースのKWSシステムのトレーニングに使用される。
提案手法は, 子どもの発話に対するすべてのキーワードセットに対して, 最先端の結果を得た。
論文 参考訳(メタデータ) (2025-08-28T22:32:42Z) - Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。
SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。
年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文 参考訳(メタデータ) (2025-08-22T17:59:35Z) - Layer-Wise Analysis of Self-Supervised Representations for Age and Gender Classification in Children's Speech [27.60599947546406]
本稿では,PFSTARとCMU Kidsデータセットを用いて,4種類のWav2Vec2変異体を詳細に解析する。
その結果,早期層はより深い層よりも話者固有の手がかりを効果的に捉えていることがわかった。
PCAの適用により、分類がさらに改善され、冗長性が低減され、最も情報性の高いコンポーネントが強調される。
論文 参考訳(メタデータ) (2025-08-14T04:11:44Z) - Evaluation of Speech Foundation Models for ASR on Child-Adult Conversations in Autism Diagnostic Sessions [27.30130353688078]
音声基礎モデルでは, 成人の発話と比較して, 子どもの発話に対する顕著な性能低下(15-20%絶対WER)がみられた。
低リソース環境では,LoRAを用いた最高のゼロショットモデル(Whisper-large)を微調整し,それぞれ8%と13%の絶対的なWER改善を実現した。
論文 参考訳(メタデータ) (2024-09-24T14:42:37Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - A comparative analysis between Conformer-Transducer, Whisper, and
wav2vec2 for improving the child speech recognition [2.965450563218781]
幼児音声におけるコンフォーマー・トランスデューサモデルの微調整は、児童音声におけるASR性能を大幅に向上させることを示す。
また、Whisper と wav2vec2 を異なる子音声データセットに適応させる。
論文 参考訳(メタデータ) (2023-11-07T19:32:48Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。