Fugu-MT 論文翻訳(概要): Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults

論文の概要: Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults

arxiv url: http://arxiv.org/abs/2309.07927v2
Date: Mon, 18 Sep 2023 09:56:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 21:57:08.954888
Title: Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults
Title（参考訳）: Kid-Whisper: 子ども向け音声認識におけるパフォーマンスギャップのブリッジ化に向けて
Authors: Ahmed Adel Attia, Jing Liu, Wei Ai, Dorottya Demszky, Carol Espy-Wilson
Abstract要約: 我々は、より効率的なデータ前処理により、MySTデータセットの有用性を高める。この改善は、目に見えないデータセットに一般化できることを示す。その結果,Whisperの有効かつ効率的な統合が,効果的な子どもの音声認識に有効であることが示された。
参考スコア（独自算出の注目度）: 5.112577625133112
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in Automatic Speech Recognition (ASR) systems, exemplified by Whisper, have demonstrated the potential of these systems to approach human-level performance given sufficient data. However, this progress doesn't readily extend to ASR for children due to the limited availability of suitable child-specific databases and the distinct characteristics of children's speech. A recent study investigated leveraging the My Science Tutor (MyST) children's speech corpus to enhance Whisper's performance in recognizing children's speech. They were able to demonstrate some improvement on a limited testset. This paper builds on these findings by enhancing the utility of the MyST dataset through more efficient data preprocessing. We reduce the Word Error Rate (WER) on the MyST testset 13.93% to 9.11% with Whisper-Small and from 13.23% to 8.61% with Whisper-Medium and show that this improvement can be generalized to unseen datasets. We also highlight important challenges towards improving children's ASR performance. The results showcase the viable and efficient integration of Whisper for effective children's speech recognition.
Abstract（参考訳）: 近年、Whisperによって実証された自動音声認識(ASR)システムの進歩は、十分なデータから人間レベルの性能にアプローチする可能性を示している。しかし、子供固有のデータベースが限られており、子どもの発話の特徴が異なるため、この進歩は子供向けのASRに容易には及ばない。最近の研究では、my science tutor (myst) の児童音声コーパスを利用して、子どもの発話認識におけるささやきの演奏能力を高める。彼らは限られたテストセットでいくつかの改善を示すことができた。本稿では,より効率的なデータプリプロセッシングにより,mystデータセットの有用性を高めることにより,これらの知見を裏付ける。 myst テストセットの単語誤り率 (wer) を 13.93% から 9.11% に、whisper-small を 13.23% から 8.61% に削減した。また,子どものASRパフォーマンス向上に向けた重要な課題も強調した。その結果,実効性のある子どもの音声認識におけるwhisperの有効かつ効率的な統合が示された。

関連論文リスト

Arabic Little STT: Arabic Children Speech Recognition Dataset [0.0]
教室で記録されたレバンタ・アラビア・チャイルド・スピーチのデータセットであるアラビア・リトルSTTを提示する。また,このデータセットを用いて,最先端自動音声認識(ASR)モデルであるWhisperを体系的に評価する。評価の結果, 最良性能モデル(Large_v3)でさえ, 子どもの発話において0.66ワード誤り率(WER)を達成できないことが判明した。
論文参考訳（メタデータ） (2025-10-27T13:30:54Z)
Can Layer-wise SSL Features Improve Zero-Shot ASR Performance for Children's Speech? [43.31597557333867]
本研究では、最先端SSL事前訓練モデルから抽出した階層的特徴が、ゼロショットシナリオにおける子供の発話におけるASRの性能向上に有効であることを示す。分析では、ゼロショットシナリオにおいて、子どもの発話におけるASRパフォーマンスを向上させる最も効果的なレイヤを特定した。
論文参考訳（メタデータ） (2025-08-28T21:32:36Z)
Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。 SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文参考訳（メタデータ） (2025-08-22T17:59:35Z)
Improving Child Speech Recognition and Reading Mistake Detection by Using Prompts [10.137389745562512]
オランダ語読み上げ音声における最先端の音声認識性能を達成した。これにより読み誤りの検出が大幅に改善され、F1スコアは0.39から0.73に増加した。
論文参考訳（メタデータ） (2025-06-04T05:55:12Z)
Challenges in Automated Processing of Speech from Child Wearables: The Case of Voice Type Classifier [44.40187506078601]
本稿では,音声タイプ分類法(Voice Type Classification)の1つの基本課題を改善することを目的とした,3年分の実験を要約することにより,進行を阻害するいくつかの障害を示す。提案実験により,表現特徴,アーキテクチャ,パラメータ探索の改善は,性能の限界ゲインにのみ寄与することが示唆された。データの関連性と量に注目することで、さらなる進歩が達成される。これは、データの共有を可能にする適切な権限を持つ収集の重要性を強調している。
論文参考訳（メタデータ） (2025-06-04T00:09:53Z)
An End-to-End Approach for Child Reading Assessment in the Xhosa Language [0.3579433677269426]
本研究は, 南アフリカで話されている言語であるXhosaに着目し, 子どもの音声認識能力を向上させることを目的とした。本稿では,Xhosaにおける児童音声サンプルからなる新しいデータセットを提案する。その結果、これらのモデルの性能は、利用可能なトレーニングデータの量とバランスに大きく影響されることが示唆された。
論文参考訳（メタデータ） (2025-05-23T00:59:58Z)
Evaluation of state-of-the-art ASR Models in Child-Adult Interactions [27.30130353688078]
音声基礎モデルでは, 成人の発話と比較して, 子どもの発話に対する顕著な性能低下(15-20%絶対WER)がみられた。低資源環境下での微調整の有効性を探索するために,最良性能のゼロショットモデル(Whisper-large)にLoRAを用いる。
論文参考訳（メタデータ） (2024-09-24T14:42:37Z)
Children's Speech Recognition through Discrete Token Enhancement [7.964926333613502]
本研究では,ASRの性能を著しく低下させることなく,個々の音声トークンを幼児の音声認識システムに組み込むことを入力として検討する。その結果,子供用離散トークンASRは,約83%のパラメータでほぼ同等の性能を発揮することがわかった。
論文参考訳（メタデータ） (2024-06-19T10:45:12Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
Improving child speech recognition with augmented child-like speech [20.709414063132627]
言語間の子子間音声変換は、子どものASR性能を著しく改善した。最先端のASRは、子どものスピーチに最適なパフォーマンスを示す。
論文参考訳（メタデータ） (2024-06-12T08:56:46Z)
BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition [72.51848069125822]
本稿では,RAVEn法の拡張であるBRAVEnを提案する。 RAVEnの修正により、BRAVEnは自己教師付き手法で最先端の結果を得ることができる。以上の結果から,手軽に手軽に利用できる音声視覚データが,コストのかかる書き起こしデータに置き換わる可能性が示唆された。
論文参考訳（メタデータ） (2024-04-02T16:48:20Z)
Improving Children's Speech Recognition by Fine-tuning Self-supervised Adult Speech Representations [2.2191297646252646]
幼児の音声認識は、包括的音声認識技術を構築する際には不可欠だが、ほとんど見過ごされる領域である。近年の自己教師型学習の進歩は、このデータ不足の問題を克服する新たな機会を生み出している。子どもの音声認識のためのモデルを構築するために,自己指導型成人音声表現を活用し,よく知られた幼児音声コーパスを3つ利用した。
論文参考訳（メタデータ） (2022-11-14T22:03:36Z)
Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文参考訳（メタデータ） (2021-10-28T20:39:02Z)
LeBenchmark: A Reproducible Framework for Assessing Self-Supervised Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。最近の研究では、音声からSSLも調べた。音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文参考訳（メタデータ） (2021-04-23T08:27:09Z)
NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文参考訳（メタデータ） (2021-02-10T13:00:29Z)
Data augmentation using prosody and false starts to recognize non-native children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文参考訳（メタデータ） (2020-08-29T05:32:32Z)
You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文参考訳（メタデータ） (2020-05-14T17:24:57Z)
Improving noise robust automatic speech recognition with single-channel time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。単一チャネル雑音の低減はASR性能を向上できることを示す。
論文参考訳（メタデータ） (2020-03-09T09:36:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。