論文の概要: Improving Children's Speech Recognition by Fine-tuning Self-supervised
Adult Speech Representations
- arxiv url: http://arxiv.org/abs/2211.07769v1
- Date: Mon, 14 Nov 2022 22:03:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 15:27:41.273406
- Title: Improving Children's Speech Recognition by Fine-tuning Self-supervised
Adult Speech Representations
- Title(参考訳): 教師付き自己表現による幼児の音声認識改善
- Authors: Renee Lu, Mostafa Shahin, Beena Ahmed
- Abstract要約: 幼児の音声認識は、包括的音声認識技術を構築する際には不可欠だが、ほとんど見過ごされる領域である。
近年の自己教師型学習の進歩は、このデータ不足の問題を克服する新たな機会を生み出している。
子どもの音声認識のためのモデルを構築するために,自己指導型成人音声表現を活用し,よく知られた幼児音声コーパスを3つ利用した。
- 参考スコア(独自算出の注目度): 2.2191297646252646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Children's speech recognition is a vital, yet largely overlooked domain when
building inclusive speech technologies. The major challenge impeding progress
in this domain is the lack of adequate child speech corpora; however, recent
advances in self-supervised learning have created a new opportunity for
overcoming this problem of data scarcity. In this paper, we leverage
self-supervised adult speech representations and use three well-known child
speech corpora to build models for children's speech recognition. We assess the
performance of fine-tuning on both native and non-native children's speech,
examine the effect of cross-domain child corpora, and investigate the minimum
amount of child speech required to fine-tune a model which outperforms a
state-of-the-art adult model. We also analyze speech recognition performance
across children's ages. Our results demonstrate that fine-tuning with
cross-domain child corpora leads to relative improvements of up to 46.08% and
45.53% for native and non-native child speech respectively, and absolute
improvements of 14.70% and 31.10%. We also show that with as little as 5 hours
of transcribed children's speech, it is possible to fine-tune a children's
speech recognition system that outperforms a state-of-the-art adult model
fine-tuned on 960 hours of adult speech.
- Abstract(参考訳): 幼児の音声認識は、包括的音声認識技術を構築する際には不可欠だが、ほとんど見過ごされる領域である。
この領域の進歩を妨げる大きな課題は、適切な児童音声コーパスの欠如である。しかしながら、近年の自己教師付き学習の進歩は、データの不足という問題を克服する新たな機会を生み出した。
本稿では,自己指導型成人音声表現を活用し,よく知られた3つの音声コーパスを用いて,子どもの音声認識モデルを構築する。
本研究では、母国語と非母国語の両方での微調整の性能を評価し、ドメイン間子コーパスの効果を検証し、最先端の成人モデルより優れるモデルを微調整するのに要する児童音声の最小量を調べた。
また, 子どもの年齢ごとの音声認識性能も分析した。
以上の結果から,クロスドメイン・チャイルドコーパスによる微調整は,それぞれ46.08%,45.53%に向上し,14.70%,31.10%に向上した。
また,5時間以内の子どもの音声の書き起こしで,960時間の成人音声において,最先端の成人モデルより優れた子どもの音声認識システムを微調整できることを示した。
関連論文リスト
- Evaluation of state-of-the-art ASR Models in Child-Adult Interactions [27.30130353688078]
音声基礎モデルでは, 成人の発話と比較して, 子どもの発話に対する顕著な性能低下(15-20%絶対WER)がみられた。
低資源環境下での微調整の有効性を探索するために,最良性能のゼロショットモデル(Whisper-large)にLoRAを用いる。
論文 参考訳(メタデータ) (2024-09-24T14:42:37Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Exploring Speech Foundation Models for Speaker Diarization in Child-Adult Dyadic Interactions [28.5211771482547]
模範音声基礎モデルでは, ダイアリゼーション誤差率と話者融合率を39.5%, 62.3%削減できることを示す。
本研究は, 子どもの発話理解を促進するために, 音声基盤モデルを理解し, 導入するための有望な経路を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-12T05:41:01Z) - Child Speech Recognition in Human-Robot Interaction: Problem Solved? [0.024739484546803334]
我々は、2017年からの子どもの音声認識に関する研究を再考し、実際に性能が向上したことを示す。
Newcomer OpenAI Whisperは、主要な商用クラウドサービスよりもはるかに優れている。
転写はまだ完璧ではないが、最高のモデルは文の60.3%を正しく認識し、小さな文法的な違いを抑える。
論文 参考訳(メタデータ) (2024-04-26T13:14:28Z) - Transfer Learning for Robust Low-Resource Children's Speech ASR with
Transformers and Source-Filter Warping [11.584388304271029]
本研究では,成人と子どもの発話の領域ギャップを埋めるために,音声のソースフィルタモデルに基づくデータ拡張手法を提案する。
この拡張戦略を用いて、成人データに基づいて事前学習したTransformerモデルに転送学習を適用する。
このモデルは、最近導入されたXLS-Rアーキテクチャ(wav2vec 2.0モデル)に従っている。
論文 参考訳(メタデータ) (2022-06-19T12:57:47Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Learning to Understand Child-directed and Adult-directed Speech [18.29692441616062]
人間の言語習得研究は、児童指向の音声が言語学習者に役立つことを示している。
成人指向音声(ADS)と子ども指向音声(CDS)で訓練されたモデルのタスク性能の比較を行った。
CDSが学習の初期段階で有効であることを示す指標が得られたが、最終的には、ADSでトレーニングされたモデルは、同等のタスクパフォーマンスに達し、より一般化される。
論文 参考訳(メタデータ) (2020-05-06T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。