論文の概要: SpeechBlender: Speech Augmentation Framework for Mispronunciation Data
Generation
- arxiv url: http://arxiv.org/abs/2211.00923v2
- Date: Wed, 17 May 2023 18:28:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 20:41:26.173162
- Title: SpeechBlender: Speech Augmentation Framework for Mispronunciation Data
Generation
- Title(参考訳): speechblender:誤用データ生成のための音声拡張フレームワーク
- Authors: Yassine El Kheir, Shammur Absar Chowdhury, Hamdy Mubarak, Shazia Afzal
and Ahmed Ali
- Abstract要約: SpeechBlenderは、誤発音エラーを生成するためのきめ細かいデータ拡張パイプラインである。
提案手法は, ASR 依存型誤発音検出モデルにおいて, Speechocean762 を用いて最先端の結果を得る。
- 参考スコア(独自算出の注目度): 12.780825722420273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lack of labeled second language (L2) speech data is a major challenge in
designing mispronunciation detection models. We introduce SpeechBlender - a
fine-grained data augmentation pipeline for generating mispronunciation errors
to overcome such data scarcity. The SpeechBlender utilizes varieties of masks
to target different regions of phonetic units, and use the mixing factors to
linearly interpolate raw speech signals while augmenting pronunciation. The
masks facilitate smooth blending of the signals, generating more effective
samples than the `Cut/Paste' method. Our proposed technique achieves
state-of-the-art results, with Speechocean762, on ASR dependent
mispronunciation detection models at phoneme level, with a 2.0% gain in Pearson
Correlation Coefficient (PCC) compared to the previous state-of-the-art [1].
Additionally, we demonstrate a 5.0% improvement at the phoneme level compared
to our baseline. We also observed a 4.6% increase in F1-score with Arabic
AraVoiceL2 testset.
- Abstract(参考訳): ラベル付き第二言語(L2)音声データの欠如は、誤発音検出モデルの設計において大きな課題である。
SpeechBlender - このようなデータ不足を克服するために、誤発音エラーを生成するためのきめ細かいデータ拡張パイプライン。
様々なマスクを用いて音素単位の異なる領域を対象とし、混合因子を用いて発音を増強しながら生の音声信号を線形補間する。
マスクは信号をスムーズにブレンドし、 'cut/paste' 法よりも効果的なサンプルを生成する。
提案手法は,ASRによる音素レベルの誤発音検出モデルに対して,Speechocean762を用いて,先行技術に比べてピアソン相関係数 (PCC) が2.0%向上した。
さらに、ベースラインと比較してphonemeレベルで5.0%改善しています。
またアラビアAraVoiceL2テストセットではF1スコアが4.6%増加した。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Improving Mispronunciation Detection with Wav2vec2-based Momentum
Pseudo-Labeling for Accentedness and Intelligibility Assessment [28.76055994423364]
現在の誤発音検出・診断システム(MDD)は、エンド・ツー・エンドの音素認識によって有望な性能を達成する。
このようなエンドツーエンドソリューションの課題の1つは、自然なL2音声における人間の注釈付き音素の不足である。
擬似ラベル処理(PL)によるラベルなしL2音声の活用と,事前学習型自己教師付き学習(SSL)モデルに基づく微調整手法の拡張を行う。
論文 参考訳(メタデータ) (2022-03-29T22:40:31Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Text Augmentation for Language Models in High Error Recognition Scenario [0.0]
我々は,大域的エラー統計に基づく拡張を,ASRエラーの単語単位のユニグラム統計に基づくものと比較した。
我々は,CHiMe-6チャレンジにおいて,第2パス再描画から第1.1 %から第1.9 %まで絶対的な WER の改善を図っている。
論文 参考訳(メタデータ) (2020-11-11T20:21:21Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。