論文の概要: Layer-Wise Analysis of Self-Supervised Representations for Age and Gender Classification in Children's Speech
- arxiv url: http://arxiv.org/abs/2508.10332v1
- Date: Thu, 14 Aug 2025 04:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.178695
- Title: Layer-Wise Analysis of Self-Supervised Representations for Age and Gender Classification in Children's Speech
- Title(参考訳): 子どもの発話における年齢・性別別自己監督表現の層幅分析
- Authors: Abhijit Sinha, Harishankar Kumar, Mohit Joshi, Hemant Kumar Kathania, Shrikanth Narayanan, Sudarsana Reddy Kadiri,
- Abstract要約: 本稿では,PFSTARとCMU Kidsデータセットを用いて,4種類のWav2Vec2変異体を詳細に解析する。
その結果,早期層はより深い層よりも話者固有の手がかりを効果的に捉えていることがわかった。
PCAの適用により、分類がさらに改善され、冗長性が低減され、最も情報性の高いコンポーネントが強調される。
- 参考スコア(独自算出の注目度): 27.60599947546406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Children's speech presents challenges for age and gender classification due to high variability in pitch, articulation, and developmental traits. While self-supervised learning (SSL) models perform well on adult speech tasks, their ability to encode speaker traits in children remains underexplored. This paper presents a detailed layer-wise analysis of four Wav2Vec2 variants using the PFSTAR and CMU Kids datasets. Results show that early layers (1-7) capture speaker-specific cues more effectively than deeper layers, which increasingly focus on linguistic information. Applying PCA further improves classification, reducing redundancy and highlighting the most informative components. The Wav2Vec2-large-lv60 model achieves 97.14% (age) and 98.20% (gender) on CMU Kids; base-100h and large-lv60 models reach 86.05% and 95.00% on PFSTAR. These results reveal how speaker traits are structured across SSL model depth and support more targeted, adaptive strategies for child-aware speech interfaces.
- Abstract(参考訳): 子どものスピーチは、ピッチ、調音、発達特性の多様性が高いため、年齢と性別の分類の課題を提示する。
自己教師付き学習(SSL)モデルは成人の音声タスクでは良好に機能するが、子どもの話者特性を符号化する能力はいまだに未熟である。
本稿では,PFSTARとCMU Kidsデータセットを用いて,4種類のWav2Vec2の層構造解析を行った。
その結果, 早期層(1-7層)は, より深い層よりも話者固有の手がかりを効果的に捉え, 言語情報に着目する傾向が示唆された。
PCAの適用により、分類がさらに改善され、冗長性が低減され、最も情報性の高いコンポーネントが強調される。
Wav2Vec2-large-lv60モデルはCMU Kidsで97.14%(年齢)と98.20%(性別)を達成し、ベース100hと大型lv60はPFSTARで86.05%、95.00%に達する。
これらの結果は、SSLモデル奥行きの話者特性がどのように構成されているかを明らかにし、子認識音声インタフェースに対するよりターゲット的で適応的な戦略をサポートする。
関連論文リスト
- Who Said What WSW 2.0? Enhanced Automated Analysis of Preschool Classroom Speech [24.034728707160497]
本稿では,幼児教室における音声対話の分析を行うためのフレームワークWSW2.0を提案する。
WSW2.0は、重み付きF1スコアが.845、精度が.846、話者分類のための誤り訂正Kappaが.672に達する(子対教師)
このフレームワークを,2年間および1,592時間以上の教室オーディオ録音を対象とする広範囲なデータセットに適用する。
論文 参考訳(メタデータ) (2025-05-15T05:21:34Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - Improving child speech recognition with augmented child-like speech [20.709414063132627]
言語間の子子間音声変換は、子どものASR性能を著しく改善した。
最先端のASRは、子どものスピーチに最適なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-12T08:56:46Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Transfer Learning for Robust Low-Resource Children's Speech ASR with
Transformers and Source-Filter Warping [11.584388304271029]
本研究では,成人と子どもの発話の領域ギャップを埋めるために,音声のソースフィルタモデルに基づくデータ拡張手法を提案する。
この拡張戦略を用いて、成人データに基づいて事前学習したTransformerモデルに転送学習を適用する。
このモデルは、最近導入されたXLS-Rアーキテクチャ(wav2vec 2.0モデル)に従っている。
論文 参考訳(メタデータ) (2022-06-19T12:57:47Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。