論文の概要: Data augmentation using prosody and false starts to recognize non-native
children's speech
- arxiv url: http://arxiv.org/abs/2008.12914v1
- Date: Sat, 29 Aug 2020 05:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 17:31:49.133652
- Title: Data augmentation using prosody and false starts to recognize non-native
children's speech
- Title(参考訳): 韻律と偽音を用いたデータ強化による非母語話者の発話認識
- Authors: Hemant Kathania, Mittul Singh, Tam\'as Gr\'osz, Mikko Kurimo
- Abstract要約: 本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
- 参考スコア(独自算出の注目度): 12.911954427107977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes AaltoASR's speech recognition system for the INTERSPEECH
2020 shared task on Automatic Speech Recognition (ASR) for non-native
children's speech. The task is to recognize non-native speech from children of
various age groups given a limited amount of speech. Moreover, the speech being
spontaneous has false starts transcribed as partial words, which in the test
transcriptions leads to unseen partial words. To cope with these two
challenges, we investigate a data augmentation-based approach. Firstly, we
apply the prosody-based data augmentation to supplement the audio data.
Secondly, we simulate false starts by introducing partial-word noise in the
language modeling corpora creating new words. Acoustic models trained on
prosody-based augmented data outperform the models using the baseline recipe or
the SpecAugment-based augmentation. The partial-word noise also helps to
improve the baseline language model. Our ASR system, a combination of these
schemes, is placed third in the evaluation period and achieves the word error
rate of 18.71%. Post-evaluation period, we observe that increasing the amounts
of prosody-based augmented data leads to better performance. Furthermore,
removing low-confidence-score words from hypotheses can lead to further gains.
These two improvements lower the ASR error rate to 17.99%.
- Abstract(参考訳): 本稿では,aaltoasrの音声認識システムであるinterspeech 2020 shared task on automatic speech recognition (asr)について述べる。
タスクは、限られた量のスピーチを与えられたさまざまな年齢の子供からの非ネイティブなスピーチを認識することである。
さらに、自発的な発話は、部分的な単語として書き起こされ始め、テストの書き起こしでは見当たらない部分的な単語につながる。
これら2つの課題に対処するために,データ拡張に基づくアプローチを検討する。
まず,音声データを補うために韻律に基づくデータ拡張を適用する。
第2に,言語モデリングコーパスに部分語ノイズを導入することで,偽語開始をシミュレートする。
韻律に基づく拡張データで訓練された音響モデルは、ベースラインレシピやスペックーグメントに基づく拡張によってモデルを上回る。
部分単語ノイズは、ベースライン言語モデルの改善にも役立ちます。
これらのスキームを組み合わせたASRシステムは,評価期間中に第3位となり,単語誤り率18.71%を達成した。
評価後,韻律に基づく拡張データの増加がパフォーマンスの向上につながることが観察された。
さらに、低信頼の単語を仮説から取り除くことは、さらなる利益につながる可能性がある。
これら2つの改良により、ASRエラー率は17.99%に低下した。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - End-to-end speech recognition modeling from de-identified data [1.3400866200396329]
音声認識モデリングに使用されるデータの非識別は、プライバシーを保護する上で重要な要素である。
本稿では,この損失を部分的に回復するための2段階の手法を提案し,評価する。
医療談話の社内データを用いて,本手法の性能評価を行った。
論文 参考訳(メタデータ) (2022-07-12T11:29:52Z) - Transfer Learning for Robust Low-Resource Children's Speech ASR with
Transformers and Source-Filter Warping [11.584388304271029]
本研究では,成人と子どもの発話の領域ギャップを埋めるために,音声のソースフィルタモデルに基づくデータ拡張手法を提案する。
この拡張戦略を用いて、成人データに基づいて事前学習したTransformerモデルに転送学習を適用する。
このモデルは、最近導入されたXLS-Rアーキテクチャ(wav2vec 2.0モデル)に従っている。
論文 参考訳(メタデータ) (2022-06-19T12:57:47Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Influence of ASR and Language Model on Alzheimer's Disease Detection [2.4698886064068555]
画像から参加者の音声記述を転写するために,SotA ASRシステムを用いて分析する。
本研究では,ASRから仮説を復号化するための言語モデルが欠如していることから,単語の非標準列を補正する言語モデルの影響について検討する。
提案システムは、韻律と声質に基づく音響と、最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせる。
論文 参考訳(メタデータ) (2021-09-20T10:41:39Z) - Low Resource German ASR with Untranscribed Data Spoken by Non-native
Children -- INTERSPEECH 2021 Shared Task SPAPL System [19.435571932141364]
本稿では,ドイツ語における非Native Children's Speechの音声認識における共有課題であるInterSPEECH 2021 ChallengeのSPAPLシステムについて述べる。
子ども向けのドイツのASRシステムを開発するために,5時間の転写データと60時間の非転写データを提供する。
書き起こしデータのトレーニングのために,音声発話における長周期非音声区間の影響を軽減するために,非音声状態判別損失(NSDL)を提案する。
本システムは,評価データに対して39.68%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-06-18T07:36:26Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。