論文の概要: SpeechBlender: Speech Augmentation Framework for Mispronunciation Data
Generation
- arxiv url: http://arxiv.org/abs/2211.00923v1
- Date: Wed, 2 Nov 2022 07:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 14:06:23.106112
- Title: SpeechBlender: Speech Augmentation Framework for Mispronunciation Data
Generation
- Title(参考訳): speechblender:誤用データ生成のための音声拡張フレームワーク
- Authors: Yassine El Kheir, Shammur Absar Chowdhury, Hamdy Mubarak, Shazia Afzal
and Ahmed Ali
- Abstract要約: SpeechBlenderは、誤発音エラーを生成するためのきめ細かいデータ拡張パイプラインである。
音素レベルの発音品質評価タスクにおける拡張手法の有効性を示す。
- 参考スコア(独自算出の注目度): 12.780825722420273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the biggest challenges in designing mispronunciation detection models
is the unavailability of labeled L2 speech data. To overcome such data
scarcity, we introduce SpeechBlender -- a fine-grained data augmentation
pipeline for generating mispronunciation errors. The SpeechBlender utilizes
varieties of masks to target different regions of a phonetic unit, and use the
mixing factors to linearly interpolate raw speech signals while generating
erroneous pronunciation instances. The masks facilitate smooth blending of the
signals, thus generating more effective samples than the `Cut/Paste' method. We
show the effectiveness of our augmentation technique in a phoneme-level
pronunciation quality assessment task, leveraging only a good pronunciation
dataset. With SpeechBlender augmentation, we observed a 3% and 2% increase in
Pearson correlation coefficient (PCC) compared to no-augmentation and goodness
of pronunciation augmentation scenarios respectively for Speechocean762
testset. Moreover, a 2% rise in PCC is observed when comparing our single-task
phoneme-level mispronunciation detection model with a multi-task learning model
using multiple-granularity information.
- Abstract(参考訳): 誤発音検出モデルの設計における最大の課題の1つは、ラベル付きL2音声データの利用不可である。
このようなデータの不足を克服するために、誤発音エラーを生成するための粒度の細かいデータ拡張パイプラインであるSpeechBlenderを導入する。
様々なマスクを用いて音素単位の異なる領域をターゲットにし、混合係数を用いて誤発音インスタンスを生成しながら生の音声信号を線形補間する。
マスクは信号のスムーズなブレンディングを促進するため、'Cut/Paste'法よりも効果的なサンプルを生成する。
音素レベルの発音品質評価タスクにおいて,良質な発音データセットのみを活用した拡張手法の有効性を示す。
speechocean762テストセットでは, 音声強調強調法では, 3%, 2%のpearson相関係数 (pcc) の上昇がみられた。
さらに,単タスク音素レベル誤認識検出モデルとマルチグラニュラ情報を用いたマルチタスク学習モデルを比較すると,pccの2%上昇が観察された。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Improving Mispronunciation Detection with Wav2vec2-based Momentum
Pseudo-Labeling for Accentedness and Intelligibility Assessment [28.76055994423364]
現在の誤発音検出・診断システム(MDD)は、エンド・ツー・エンドの音素認識によって有望な性能を達成する。
このようなエンドツーエンドソリューションの課題の1つは、自然なL2音声における人間の注釈付き音素の不足である。
擬似ラベル処理(PL)によるラベルなしL2音声の活用と,事前学習型自己教師付き学習(SSL)モデルに基づく微調整手法の拡張を行う。
論文 参考訳(メタデータ) (2022-03-29T22:40:31Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Text Augmentation for Language Models in High Error Recognition Scenario [0.0]
我々は,大域的エラー統計に基づく拡張を,ASRエラーの単語単位のユニグラム統計に基づくものと比較した。
我々は,CHiMe-6チャレンジにおいて,第2パス再描画から第1.1 %から第1.9 %まで絶対的な WER の改善を図っている。
論文 参考訳(メタデータ) (2020-11-11T20:21:21Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。