論文の概要: Adaptation of Whisper models to child speech recognition
- arxiv url: http://arxiv.org/abs/2307.13008v1
- Date: Mon, 24 Jul 2023 12:54:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 19:34:24.110609
- Title: Adaptation of Whisper models to child speech recognition
- Title(参考訳): Whisperモデルの児童音声認識への適用
- Authors: Rishabh Jain and Andrei Barcovschi and Mariam Yiwere and Peter
Corcoran and Horia Cucu
- Abstract要約: 幼児音声におけるWhisperの微調整は、児童音声におけるASR性能を大幅に向上させることを示す。
Wav2vec2モデルは、子どものスピーチで微調整され、Whisperの微調整よりも優れています。
- 参考スコア(独自算出の注目度): 3.2548794659022398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems often struggle with transcribing
child speech due to the lack of large child speech datasets required to
accurately train child-friendly ASR models. However, there are huge amounts of
annotated adult speech datasets which were used to create multilingual ASR
models, such as Whisper. Our work aims to explore whether such models can be
adapted to child speech to improve ASR for children. In addition, we compare
Whisper child-adaptations with finetuned self-supervised models, such as
wav2vec2. We demonstrate that finetuning Whisper on child speech yields
significant improvements in ASR performance on child speech, compared to non
finetuned Whisper models. Additionally, utilizing self-supervised Wav2vec2
models that have been finetuned on child speech outperforms Whisper finetuning.
- Abstract(参考訳): 自動音声認識(asr)システムは、子供にやさしいasrモデルの正確な訓練に必要な大きな音声データセットの欠如により、子供の音声の書き起こしに苦慮することが多い。
しかし、アノテートされたアダルト音声データセットは、whisperのような多言語asrモデルの作成に使われた。
本研究は,これらのモデルが子どものasrを改善するために,子どもの発話に適応できるかどうかを検討することを目的とした。
さらに,wav2vec2 のような微調整された自己教師付きモデルと比較した。
幼児音声におけるWhisperの微調整は、非微調整Whisperモデルと比較して、子供音声におけるASR性能を著しく向上させることを示した。
さらに、子どもの発話で微調整された自己教師型Wav2vec2モデルは、Whisperの微調整よりも優れている。
関連論文リスト
- Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - A comparative analysis between Conformer-Transducer, Whisper, and
wav2vec2 for improving the child speech recognition [2.965450563218781]
幼児音声におけるコンフォーマー・トランスデューサモデルの微調整は、児童音声におけるASR性能を大幅に向上させることを示す。
また、Whisper と wav2vec2 を異なる子音声データセットに適応させる。
論文 参考訳(メタデータ) (2023-11-07T19:32:48Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Automatic Speech Recognition of Non-Native Child Speech for Language
Learning Applications [18.849741353784328]
我々は、最先端のASRシステムであるWav2Vec2.0とWhisper AIの性能を評価する。
オランダ語母語,非母語母語母語,非母語母語母語,母語母語母語母語母語,母語母語母語母語母語,母語母語母語母語母語母語母語母語,母語母語母語母語母語母語母語母語,母語母語母語母語母語母語
論文 参考訳(メタデータ) (2023-06-29T06:14:26Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Improving Children's Speech Recognition by Fine-tuning Self-supervised
Adult Speech Representations [2.2191297646252646]
幼児の音声認識は、包括的音声認識技術を構築する際には不可欠だが、ほとんど見過ごされる領域である。
近年の自己教師型学習の進歩は、このデータ不足の問題を克服する新たな機会を生み出している。
子どもの音声認識のためのモデルを構築するために,自己指導型成人音声表現を活用し,よく知られた幼児音声コーパスを3つ利用した。
論文 参考訳(メタデータ) (2022-11-14T22:03:36Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Transfer Learning for Robust Low-Resource Children's Speech ASR with
Transformers and Source-Filter Warping [11.584388304271029]
本研究では,成人と子どもの発話の領域ギャップを埋めるために,音声のソースフィルタモデルに基づくデータ拡張手法を提案する。
この拡張戦略を用いて、成人データに基づいて事前学習したTransformerモデルに転送学習を適用する。
このモデルは、最近導入されたXLS-Rアーキテクチャ(wav2vec 2.0モデル)に従っている。
論文 参考訳(メタデータ) (2022-06-19T12:57:47Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Learning to Understand Child-directed and Adult-directed Speech [18.29692441616062]
人間の言語習得研究は、児童指向の音声が言語学習者に役立つことを示している。
成人指向音声(ADS)と子ども指向音声(CDS)で訓練されたモデルのタスク性能の比較を行った。
CDSが学習の初期段階で有効であることを示す指標が得られたが、最終的には、ADSでトレーニングされたモデルは、同等のタスクパフォーマンスに達し、より一般化される。
論文 参考訳(メタデータ) (2020-05-06T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。