Fugu-MT 論文翻訳(概要): SpeechBlender: Speech Augmentation Framework for Mispronunciation Data Generation

論文の概要: SpeechBlender: Speech Augmentation Framework for Mispronunciation Data Generation

arxiv url: http://arxiv.org/abs/2211.00923v2
Date: Wed, 17 May 2023 18:28:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-19 20:41:26.173162
Title: SpeechBlender: Speech Augmentation Framework for Mispronunciation Data Generation
Title（参考訳）: speechblender:誤用データ生成のための音声拡張フレームワーク
Authors: Yassine El Kheir, Shammur Absar Chowdhury, Hamdy Mubarak, Shazia Afzal and Ahmed Ali
Abstract要約: SpeechBlenderは、誤発音エラーを生成するためのきめ細かいデータ拡張パイプラインである。提案手法は, ASR 依存型誤発音検出モデルにおいて, Speechocean762 を用いて最先端の結果を得る。
参考スコア（独自算出の注目度）: 12.780825722420273
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The lack of labeled second language (L2) speech data is a major challenge in designing mispronunciation detection models. We introduce SpeechBlender - a fine-grained data augmentation pipeline for generating mispronunciation errors to overcome such data scarcity. The SpeechBlender utilizes varieties of masks to target different regions of phonetic units, and use the mixing factors to linearly interpolate raw speech signals while augmenting pronunciation. The masks facilitate smooth blending of the signals, generating more effective samples than the `Cut/Paste' method. Our proposed technique achieves state-of-the-art results, with Speechocean762, on ASR dependent mispronunciation detection models at phoneme level, with a 2.0% gain in Pearson Correlation Coefficient (PCC) compared to the previous state-of-the-art [1]. Additionally, we demonstrate a 5.0% improvement at the phoneme level compared to our baseline. We also observed a 4.6% increase in F1-score with Arabic AraVoiceL2 testset.
Abstract（参考訳）: ラベル付き第二言語(L2)音声データの欠如は、誤発音検出モデルの設計において大きな課題である。 SpeechBlender - このようなデータ不足を克服するために、誤発音エラーを生成するためのきめ細かいデータ拡張パイプライン。様々なマスクを用いて音素単位の異なる領域を対象とし、混合因子を用いて発音を増強しながら生の音声信号を線形補間する。マスクは信号をスムーズにブレンドし、 'cut/paste' 法よりも効果的なサンプルを生成する。提案手法は,ASRによる音素レベルの誤発音検出モデルに対して,Speechocean762を用いて,先行技術に比べてピアソン相関係数 (PCC) が2.0%向上した。さらに、ベースラインと比較してphonemeレベルで5.0%改善しています。またアラビアAraVoiceL2テストセットではF1スコアが4.6%増加した。

関連論文リスト

Pronunciation-Lexicon Free Training for Phoneme-based Crosslingual ASR via Joint Stochastic Approximation [12.39451124683428]
本稿では,音素を離散潜在変数として扱う潜在変数モデルに基づく手法を提案する。多言語事前学習S2Pモデルに基づいて,ポーランド語とインドネシア語でクロスリンガル実験を行った。 10分間しか音素の監督を行ない、新しい手法であるJSA-SPGは5%の誤り率の低減を実現した。
論文参考訳（メタデータ） (2025-07-04T12:23:22Z)
Robust Persian Digit Recognition in Noisy Environments Using Hybrid CNN-BiGRU Model [1.5566524830295307]
本研究は,雑音条件下でのペルシャ文字の孤立認識(ゼロから9)に対処する。残差畳み込みニューラルネットワークと双方向ゲートユニット(BiGRU)を組み合わせたハイブリッドモデルを提案する。実験の結果、モデルの有効性が98.53%、96.10%、トレーニング、検証、テストセットにおける95.92%の精度で証明された。
論文参考訳（メタデータ） (2024-12-14T15:11:42Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
Speech collage: code-switched audio generation by collaging monolingual corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。 2つのシナリオにおける音声認識における生成データの影響について検討する。
論文参考訳（メタデータ） (2023-09-27T14:17:53Z)
Improving Mispronunciation Detection with Wav2vec2-based Momentum Pseudo-Labeling for Accentedness and Intelligibility Assessment [28.76055994423364]
現在の誤発音検出・診断システム(MDD)は、エンド・ツー・エンドの音素認識によって有望な性能を達成する。このようなエンドツーエンドソリューションの課題の1つは、自然なL2音声における人間の注釈付き音素の不足である。擬似ラベル処理(PL)によるラベルなしL2音声の活用と,事前学習型自己教師付き学習(SSL)モデルに基づく微調整手法の拡張を行う。
論文参考訳（メタデータ） (2022-03-29T22:40:31Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文参考訳（メタデータ） (2021-10-11T00:08:48Z)
MixSpeech: Data Augmentation for Low-resource Automatic Speech Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。 mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文参考訳（メタデータ） (2021-02-25T03:40:43Z)
Text Augmentation for Language Models in High Error Recognition Scenario [0.0]
我々は,大域的エラー統計に基づく拡張を,ASRエラーの単語単位のユニグラム統計に基づくものと比較した。我々は,CHiMe-6チャレンジにおいて,第2パス再描画から第1.1 %から第1.9 %まで絶対的な WER の改善を図っている。
論文参考訳（メタデータ） (2020-11-11T20:21:21Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。