論文の概要: Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet
- arxiv url: http://arxiv.org/abs/2508.16576v1
- Date: Fri, 22 Aug 2025 17:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.483979
- Title: Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet
- Title(参考訳): ESPnetにおける児童ASRのためのベンチマークトレーニングパラダイム、データセット構成、モデルスケーリング
- Authors: Anyu Ying, Natarajan Balaji Shankar, Chyi-Jiunn Lin, Mohan Shi, Pu Wang, Hye-jin Shim, Siddhant Arora, Hugo Van hamme, Abeer Alwan, Shinji Watanabe,
- Abstract要約: データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。
SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。
年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
- 参考スコア(独自算出の注目度): 72.53502346791814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advancements in ASR, child speech recognition remains challenging due to acoustic variability and limited annotated data. While fine-tuning adult ASR models on child speech is common, comparisons with flat-start training remain underexplored. We compare flat-start training across multiple datasets, SSL representations (WavLM, XEUS), and decoder architectures. Our results show that SSL representations are biased toward adult speech, with flat-start training on child speech mitigating these biases. We also analyze model scaling, finding consistent improvements up to 1B parameters, beyond which performance plateaus. Additionally, age-related ASR and speaker verification analysis highlights the limitations of proprietary models like Whisper, emphasizing the need for open-data models for reliable child speech research. All investigations are conducted using ESPnet, and our publicly available benchmark provides insights into training strategies for robust child speech processing.
- Abstract(参考訳): ASRの進歩にもかかわらず、音響的変動と限られた注釈付きデータにより、音声認識は依然として困難である。
子どもの発話を微調整する成人のASRモデルが一般的であるが、フラットスタート訓練との比較はいまだに未熟である。
複数のデータセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャのフラットスタートトレーニングを比較した。
以上の結果から, SSL表現は成人の発話に偏り, 子どもの発話を平らに訓練し, 偏見を緩和することがわかった。
また、モデルスケーリングを分析し、1Bパラメータまで一貫した改善点を見つけます。
さらに、年齢に関連するASRと話者検証分析は、Whisperのようなプロプライエタリなモデルの限界を強調し、信頼できる子音声研究のためのオープンデータモデルの必要性を強調している。
調査はすべてESPnetを用いて行われ、我々の公開ベンチマークは、堅牢な子音声処理のためのトレーニング戦略に関する洞察を提供する。
関連論文リスト
- Towards few-shot isolated word reading assessment [17.85337022148277]
低リソース環境における単語読解のためのASRフリー手法について検討する。
提案手法は,入力子音声を成人向け参照テンプレートの小さなセットと比較する。
低リソース音声タスクにおけるSSL表現の使用の成功にもかかわらず、我々の研究は、子データ処理におけるSSL表現の限界を強調している。
論文 参考訳(メタデータ) (2025-07-16T13:20:32Z) - Examining Test-Time Adaptation for Personalized Child Speech Recognition [26.233159818496006]
テスト時間適応(TTA)法はこの領域のギャップを埋める大きな可能性を示している。
市販のASRモデルに適応する2種類のTTA手法-SUTAとSGEM-inの有効性について検討した。
以上の結果から,TTAは平均および各子話者の双方において,市販のASRモデルと微調整型ASRモデルの両方の性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-09-19T21:40:07Z) - A comparative analysis between Conformer-Transducer, Whisper, and
wav2vec2 for improving the child speech recognition [2.965450563218781]
幼児音声におけるコンフォーマー・トランスデューサモデルの微調整は、児童音声におけるASR性能を大幅に向上させることを示す。
また、Whisper と wav2vec2 を異なる子音声データセットに適応させる。
論文 参考訳(メタデータ) (2023-11-07T19:32:48Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Evidence of Vocal Tract Articulation in Self-Supervised Learning of
Speech [15.975756437343742]
最近の自己教師付き学習(SSL)モデルは、音声の豊かな表現を学習することが証明されている。
EMA(Electronic Articulography)による音声表現と音声軌跡を関連付けるための包括的分析を行う。
以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。
論文 参考訳(メタデータ) (2022-10-21T04:24:29Z) - Transfer Learning for Robust Low-Resource Children's Speech ASR with
Transformers and Source-Filter Warping [11.584388304271029]
本研究では,成人と子どもの発話の領域ギャップを埋めるために,音声のソースフィルタモデルに基づくデータ拡張手法を提案する。
この拡張戦略を用いて、成人データに基づいて事前学習したTransformerモデルに転送学習を適用する。
このモデルは、最近導入されたXLS-Rアーキテクチャ(wav2vec 2.0モデル)に従っている。
論文 参考訳(メタデータ) (2022-06-19T12:57:47Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。