論文の概要: Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech
Recognition for Children VS. Adults
- arxiv url: http://arxiv.org/abs/2309.07927v2
- Date: Mon, 18 Sep 2023 09:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 21:57:08.954888
- Title: Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech
Recognition for Children VS. Adults
- Title(参考訳): Kid-Whisper: 子ども向け音声認識におけるパフォーマンスギャップのブリッジ化に向けて
- Authors: Ahmed Adel Attia, Jing Liu, Wei Ai, Dorottya Demszky, Carol
Espy-Wilson
- Abstract要約: 我々は、より効率的なデータ前処理により、MySTデータセットの有用性を高める。
この改善は、目に見えないデータセットに一般化できることを示す。
その結果,Whisperの有効かつ効率的な統合が,効果的な子どもの音声認識に有効であることが示された。
- 参考スコア(独自算出の注目度): 5.112577625133112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Automatic Speech Recognition (ASR) systems,
exemplified by Whisper, have demonstrated the potential of these systems to
approach human-level performance given sufficient data. However, this progress
doesn't readily extend to ASR for children due to the limited availability of
suitable child-specific databases and the distinct characteristics of
children's speech. A recent study investigated leveraging the My Science Tutor
(MyST) children's speech corpus to enhance Whisper's performance in recognizing
children's speech. They were able to demonstrate some improvement on a limited
testset. This paper builds on these findings by enhancing the utility of the
MyST dataset through more efficient data preprocessing. We reduce the Word
Error Rate (WER) on the MyST testset 13.93% to 9.11% with Whisper-Small and
from 13.23% to 8.61% with Whisper-Medium and show that this improvement can be
generalized to unseen datasets. We also highlight important challenges towards
improving children's ASR performance. The results showcase the viable and
efficient integration of Whisper for effective children's speech recognition.
- Abstract(参考訳): 近年、Whisperによって実証された自動音声認識(ASR)システムの進歩は、十分なデータから人間レベルの性能にアプローチする可能性を示している。
しかし、子供固有のデータベースが限られており、子どもの発話の特徴が異なるため、この進歩は子供向けのASRに容易には及ばない。
最近の研究では、my science tutor (myst) の児童音声コーパスを利用して、子どもの発話認識におけるささやきの演奏能力を高める。
彼らは限られたテストセットでいくつかの改善を示すことができた。
本稿では,より効率的なデータプリプロセッシングにより,mystデータセットの有用性を高めることにより,これらの知見を裏付ける。
myst テストセットの単語誤り率 (wer) を 13.93% から 9.11% に、whisper-small を 13.23% から 8.61% に削減した。
また,子どものASRパフォーマンス向上に向けた重要な課題も強調した。
その結果,実効性のある子どもの音声認識におけるwhisperの有効かつ効率的な統合が示された。
関連論文リスト
- Evaluation of state-of-the-art ASR Models in Child-Adult Interactions [27.30130353688078]
音声基礎モデルでは, 成人の発話と比較して, 子どもの発話に対する顕著な性能低下(15-20%絶対WER)がみられた。
低資源環境下での微調整の有効性を探索するために,最良性能のゼロショットモデル(Whisper-large)にLoRAを用いる。
論文 参考訳(メタデータ) (2024-09-24T14:42:37Z) - Children's Speech Recognition through Discrete Token Enhancement [7.964926333613502]
本研究では,ASRの性能を著しく低下させることなく,個々の音声トークンを幼児の音声認識システムに組み込むことを入力として検討する。
その結果,子供用離散トークンASRは,約83%のパラメータでほぼ同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2024-06-19T10:45:12Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Improving child speech recognition with augmented child-like speech [20.709414063132627]
言語間の子子間音声変換は、子どものASR性能を著しく改善した。
最先端のASRは、子どものスピーチに最適なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-12T08:56:46Z) - BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition [72.51848069125822]
本稿では,RAVEn法の拡張であるBRAVEnを提案する。
RAVEnの修正により、BRAVEnは自己教師付き手法で最先端の結果を得ることができる。
以上の結果から,手軽に手軽に利用できる音声視覚データが,コストのかかる書き起こしデータに置き換わる可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-02T16:48:20Z) - Improving Children's Speech Recognition by Fine-tuning Self-supervised
Adult Speech Representations [2.2191297646252646]
幼児の音声認識は、包括的音声認識技術を構築する際には不可欠だが、ほとんど見過ごされる領域である。
近年の自己教師型学習の進歩は、このデータ不足の問題を克服する新たな機会を生み出している。
子どもの音声認識のためのモデルを構築するために,自己指導型成人音声表現を活用し,よく知られた幼児音声コーパスを3つ利用した。
論文 参考訳(メタデータ) (2022-11-14T22:03:36Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。