論文の概要: Zero-Shot KWS for Children's Speech using Layer-Wise Features from SSL Models
- arxiv url: http://arxiv.org/abs/2508.21248v1
- Date: Thu, 28 Aug 2025 22:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.89017
- Title: Zero-Shot KWS for Children's Speech using Layer-Wise Features from SSL Models
- Title(参考訳): SSLモデルからの層幅特徴を用いた幼児音声のゼロショットKWS
- Authors: Subham Kutum, Abhijit Sinha, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Mahesh Chandra Govil,
- Abstract要約: 本稿では,最先端の自己教師付き学習(SSL)モデルを活用したゼロショットKWS手法を提案する。
機能はこれらのSSLモデルから階層的に抽出され、カルディベースのKWSシステムのトレーニングに使用される。
提案手法は, 子どもの発話に対するすべてのキーワードセットに対して, 最先端の結果を得た。
- 参考スコア(独自算出の注目度): 12.976537689930373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous methods have been proposed to enhance Keyword Spotting (KWS) in adult speech, but children's speech presents unique challenges for KWS systems due to its distinct acoustic and linguistic characteristics. This paper introduces a zero-shot KWS approach that leverages state-of-the-art self-supervised learning (SSL) models, including Wav2Vec2, HuBERT and Data2Vec. Features are extracted layer-wise from these SSL models and used to train a Kaldi-based DNN KWS system. The WSJCAM0 adult speech dataset was used for training, while the PFSTAR children's speech dataset was used for testing, demonstrating the zero-shot capability of our method. Our approach achieved state-of-the-art results across all keyword sets for children's speech. Notably, the Wav2Vec2 model, particularly layer 22, performed the best, delivering an ATWV score of 0.691, a MTWV score of 0.7003 and probability of false alarm and probability of miss of 0.0164 and 0.0547 respectively, for a set of 30 keywords. Furthermore, age-specific performance evaluation confirmed the system's effectiveness across different age groups of children. To assess the system's robustness against noise, additional experiments were conducted using the best-performing layer of the best-performing Wav2Vec2 model. The results demonstrated a significant improvement over traditional MFCC-based baseline, emphasizing the potential of SSL embeddings even in noisy conditions. To further generalize the KWS framework, the experiments were repeated for an additional CMU dataset. Overall the results highlight the significant contribution of SSL features in enhancing Zero-Shot KWS performance for children's speech, effectively addressing the challenges associated with the distinct characteristics of child speakers.
- Abstract(参考訳): 成人音声におけるキーワードスポッティング(KWS)を強化するために多くの方法が提案されているが、子どもの発話は、その音響的特徴と言語学的特徴から、KWSシステムに固有の課題を呈している。
本稿では,Wav2Vec2, HuBERT, Data2Vecなど,最先端の自己教師型学習(SSL)モデルを活用するゼロショットKWSアプローチを提案する。
機能はこれらのSSLモデルから階層的に抽出され、カルディベースのDNN KWSシステムのトレーニングに使用される。
WSJCAM0成人音声データセットを訓練に使用し、PFSTAR小児音声データセットを試験に使用し、本手法のゼロショット能力を実証した。
提案手法は, 子どもの発話に対するすべてのキーワード集合に対して, 最先端の結果を得た。
特に、Wav2Vec2モデル、特にレイヤ22では、30キーワードのセットに対してATWVスコア0.691、MTWVスコア0.7003、誤警報確率0.0164、エラー確率0.0547のATWVスコアが最高のパフォーマンスを示した。
さらに, 年齢別成績評価では, 異なる年齢層にまたがるシステムの有効性が確認された。
ノイズに対するシステムの堅牢性を評価するため、Wav2Vec2モデルの最高の性能層を用いて追加実験を行った。
その結果、従来のMFCCベースのベースラインよりも大幅に改善され、ノイズの多い条件でもSSL埋め込みの可能性を強調した。
KWSフレームワークをさらに一般化するため、追加のCMUデータセットに対して実験を繰り返した。
その結果,Zero-Shot KWSのパフォーマンス向上におけるSSL機能の重要性が強調され,子話者の異なる特徴に関連する課題が効果的に解決された。
関連論文リスト
- SageLM: A Multi-aspect and Explainable Large Language Model for Speech Judgement [74.51476422119457]
音声音声合成(S2S)大規模言語モデル(LLM)は、人間とコンピュータの自然な相互作用の基礎となる。
包括的S2S LLM評価のためのエンドツーエンド・マルチアスペクト・説明可能な音声LLMである textttSageLM を提案する。
論文 参考訳(メタデータ) (2025-08-28T15:47:37Z) - Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。
SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。
年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文 参考訳(メタデータ) (2025-08-22T17:59:35Z) - Layer-Wise Analysis of Self-Supervised Representations for Age and Gender Classification in Children's Speech [27.60599947546406]
本稿では,PFSTARとCMU Kidsデータセットを用いて,4種類のWav2Vec2変異体を詳細に解析する。
その結果,早期層はより深い層よりも話者固有の手がかりを効果的に捉えていることがわかった。
PCAの適用により、分類がさらに改善され、冗長性が低減され、最も情報性の高いコンポーネントが強調される。
論文 参考訳(メタデータ) (2025-08-14T04:11:44Z) - Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining [21.26555178371168]
ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。
ディープニューラルネットワークベースのモデルは、このタスクで優れたパフォーマンスを示している。
雑音条件下でのTS-VAD性能を向上させるための、因果的自己監視学習(SSL)事前トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-06T18:00:14Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech [70.3307853082527]
この研究は、SSL対応のフランス語音声技術の評価と構築のためのオープンソースのフレームワークであるLeBenchmark 2.0を紹介している。
文書化され、大規模で、異質なコーパスを含み、14,000時間に及ぶ異質なスピーチがある。
コミュニティが共有する2600万から10億の学習可能なパラメータを含む、トレーニング済みのSSLwav2vec 2.0モデルが10種類含まれている。
論文 参考訳(メタデータ) (2023-09-11T14:13:09Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。