論文の概要: A comparative analysis between Conformer-Transducer, Whisper, and
wav2vec2 for improving the child speech recognition
- arxiv url: http://arxiv.org/abs/2311.04936v1
- Date: Tue, 7 Nov 2023 19:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 17:08:22.557240
- Title: A comparative analysis between Conformer-Transducer, Whisper, and
wav2vec2 for improving the child speech recognition
- Title(参考訳): Conformer-Transducer, Whisper, wav2vec2の比較分析による幼児の音声認識改善
- Authors: Andrei Barcovschi and Rishabh Jain and Peter Corcoran
- Abstract要約: 幼児音声におけるコンフォーマー・トランスデューサモデルの微調整は、児童音声におけるASR性能を大幅に向上させることを示す。
また、Whisper と wav2vec2 を異なる子音声データセットに適応させる。
- 参考スコア(独自算出の注目度): 2.965450563218781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems have progressed significantly in
their performance on adult speech data; however, transcribing child speech
remains challenging due to the acoustic differences in the characteristics of
child and adult voices. This work aims to explore the potential of adapting
state-of-the-art Conformer-transducer models to child speech to improve child
speech recognition performance. Furthermore, the results are compared with
those of self-supervised wav2vec2 models and semi-supervised multi-domain
Whisper models that were previously finetuned on the same data. We demonstrate
that finetuning Conformer-transducer models on child speech yields significant
improvements in ASR performance on child speech, compared to the non-finetuned
models. We also show Whisper and wav2vec2 adaptation on different child speech
datasets. Our detailed comparative analysis shows that wav2vec2 provides the
most consistent performance improvements among the three methods studied.
- Abstract(参考訳): 自動音声認識 (asr) システムは, 成人用音声データの性能が著しく向上しているが, 幼児用音声の書き起こしは, 児童用音声と成人用音声の音響的特徴の違いから, いまだに困難である。
本研究の目的は,子どもの音声認識性能を向上させるために,最先端のコンフォーマー・トランスデューサモデルを適用する可能性を検討することである。
さらに,従来同一データに微調整されていた自己教師型wav2vec2モデルと半教師型マルチドメインWhisperモデルとの比較を行った。
子どもの発話におけるコンフォーメータ・トランスデューサモデルの微調整は, 子どもの発話におけるasr性能を非微調整モデルと比較して有意に向上することを示す。
また,子どもの発話データから,whisper と wav2vec2 の適応性を示す。
比較分析の結果,wav2vec2は3つの手法の中で最も一貫した性能改善が得られた。
関連論文リスト
- Evaluation of state-of-the-art ASR Models in Child-Adult Interactions [27.30130353688078]
音声基礎モデルでは, 成人の発話と比較して, 子どもの発話に対する顕著な性能低下(15-20%絶対WER)がみられた。
低資源環境下での微調整の有効性を探索するために,最良性能のゼロショットモデル(Whisper-large)にLoRAを用いる。
論文 参考訳(メタデータ) (2024-09-24T14:42:37Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Improving child speech recognition with augmented child-like speech [20.709414063132627]
言語間の子子間音声変換は、子どものASR性能を著しく改善した。
最先端のASRは、子どものスピーチに最適なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-12T08:56:46Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Adaptation of Whisper models to child speech recognition [3.2548794659022398]
幼児音声におけるWhisperの微調整は、児童音声におけるASR性能を大幅に向上させることを示す。
Wav2vec2モデルは、子どものスピーチで微調整され、Whisperの微調整よりも優れています。
論文 参考訳(メタデータ) (2023-07-24T12:54:45Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Transfer Learning for Robust Low-Resource Children's Speech ASR with
Transformers and Source-Filter Warping [11.584388304271029]
本研究では,成人と子どもの発話の領域ギャップを埋めるために,音声のソースフィルタモデルに基づくデータ拡張手法を提案する。
この拡張戦略を用いて、成人データに基づいて事前学習したTransformerモデルに転送学習を適用する。
このモデルは、最近導入されたXLS-Rアーキテクチャ(wav2vec 2.0モデル)に従っている。
論文 参考訳(メタデータ) (2022-06-19T12:57:47Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Learning to Understand Child-directed and Adult-directed Speech [18.29692441616062]
人間の言語習得研究は、児童指向の音声が言語学習者に役立つことを示している。
成人指向音声(ADS)と子ども指向音声(CDS)で訓練されたモデルのタスク性能の比較を行った。
CDSが学習の初期段階で有効であることを示す指標が得られたが、最終的には、ADSでトレーニングされたモデルは、同等のタスクパフォーマンスに達し、より一般化される。
論文 参考訳(メタデータ) (2020-05-06T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。