論文の概要: Personalized Speech Recognition for Children with Test-Time Adaptation
- arxiv url: http://arxiv.org/abs/2409.13095v1
- Date: Thu, 19 Sep 2024 21:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 11:52:12.994313
- Title: Personalized Speech Recognition for Children with Test-Time Adaptation
- Title(参考訳): テスト時間適応児に対するパーソナライズされた音声認識
- Authors: Zhonghao Shi, Harshvardhan Srivastava, Xuan Shi, Shrikanth Narayanan, Maja J. Matarić,
- Abstract要約: 主に成人データに基づいて事前訓練されたオフザシェルフ自動音声認識(ASR)モデルは、子供の発話に悪影響を及ぼす傾向にある。
子どもの音声認識に教師なしテスト時間適応(TTA)手法を適用する新しいASRパイプラインを考案した。
以上の結果から,TTA法に適応したASRモデルは,個々の子話者の平均および統計的に,未適応のASRベースラインよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 21.882608966462932
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate automatic speech recognition (ASR) for children is crucial for effective real-time child-AI interaction, especially in educational applications. However, off-the-shelf ASR models primarily pre-trained on adult data tend to generalize poorly to children's speech due to the data domain shift from adults to children. Recent studies have found that supervised fine-tuning on children's speech data can help bridge this domain shift, but human annotations may be impractical to obtain for real-world applications and adaptation at training time can overlook additional domain shifts occurring at test time. We devised a novel ASR pipeline to apply unsupervised test-time adaptation (TTA) methods for child speech recognition, so that ASR models pre-trained on adult speech can be continuously adapted to each child speaker at test time without further human annotations. Our results show that ASR models adapted with TTA methods significantly outperform the unadapted off-the-shelf ASR baselines both on average and statistically across individual child speakers. Our analysis also discovered significant data domain shifts both between child speakers and within each child speaker, which further motivates the need for test-time adaptation.
- Abstract(参考訳): 子どものための正確な自動音声認識(ASR)は、特に教育応用において、効果的なリアルタイムの児童とAIの相互作用に不可欠である。
しかし、主に成人データに基づいて事前訓練された市販のASRモデルは、成人から子供へのデータ領域のシフトにより、子供の発話に悪影響を及ぼす傾向にある。
近年の研究では、子供の音声データの教師付き微調整がこのドメインシフトの橋渡しに役立つことが報告されているが、人間のアノテーションは現実の応用には実用的ではなく、テスト時に追加のドメインシフトが生じるのを見落としることができる。
そこで我々は,子どもの音声認識に教師なしテスト時間適応(TTA)手法を適用する新しいASRパイプラインを考案した。
以上の結果から,TTA法に適応したASRモデルは,個々の子話者の平均および統計的に,未適応のASRベースラインよりも有意に優れていた。
また, 子話者と子話者の間に有意なデータ領域シフトがみられ, テスト時間適応の必要性がさらに高まった。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Evaluation of state-of-the-art ASR Models in Child-Adult Interactions [27.30130353688078]
音声基礎モデルでは, 成人の発話と比較して, 子どもの発話に対する顕著な性能低下(15-20%絶対WER)がみられた。
低資源環境下での微調整の有効性を探索するために,最良性能のゼロショットモデル(Whisper-large)にLoRAを用いる。
論文 参考訳(メタデータ) (2024-09-24T14:42:37Z) - A comparative analysis between Conformer-Transducer, Whisper, and
wav2vec2 for improving the child speech recognition [2.965450563218781]
幼児音声におけるコンフォーマー・トランスデューサモデルの微調整は、児童音声におけるASR性能を大幅に向上させることを示す。
また、Whisper と wav2vec2 を異なる子音声データセットに適応させる。
論文 参考訳(メタデータ) (2023-11-07T19:32:48Z) - Understanding Spoken Language Development of Children with ASD Using
Pre-trained Speech Embeddings [26.703275678213135]
自然言語サンプル(NLS)分析は,従来の手法を補完する有望な手法として注目されている。
本稿では,子どもの音声言語発達の自動評価を支援するために,音声処理技術の応用を提案する。
論文 参考訳(メタデータ) (2023-05-23T14:39:49Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Transfer Learning for Robust Low-Resource Children's Speech ASR with
Transformers and Source-Filter Warping [11.584388304271029]
本研究では,成人と子どもの発話の領域ギャップを埋めるために,音声のソースフィルタモデルに基づくデータ拡張手法を提案する。
この拡張戦略を用いて、成人データに基づいて事前学習したTransformerモデルに転送学習を適用する。
このモデルは、最近導入されたXLS-Rアーキテクチャ(wav2vec 2.0モデル)に従っている。
論文 参考訳(メタデータ) (2022-06-19T12:57:47Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。