論文の概要: Improving Mispronunciation Detection with Wav2vec2-based Momentum
Pseudo-Labeling for Accentedness and Intelligibility Assessment
- arxiv url: http://arxiv.org/abs/2203.15937v1
- Date: Tue, 29 Mar 2022 22:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:39:56.476239
- Title: Improving Mispronunciation Detection with Wav2vec2-based Momentum
Pseudo-Labeling for Accentedness and Intelligibility Assessment
- Title(参考訳): Wav2vec2-based Momentum Pseudo-Labeling による誤認識検出の改善
- Authors: Mu Yang, Kevin Hirschi, Stephen D. Looney, Okim Kang, John H. L.
Hansen
- Abstract要約: 現在の誤発音検出・診断システム(MDD)は、エンド・ツー・エンドの音素認識によって有望な性能を達成する。
このようなエンドツーエンドソリューションの課題の1つは、自然なL2音声における人間の注釈付き音素の不足である。
擬似ラベル処理(PL)によるラベルなしL2音声の活用と,事前学習型自己教師付き学習(SSL)モデルに基づく微調整手法の拡張を行う。
- 参考スコア(独自算出の注目度): 28.76055994423364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current leading mispronunciation detection and diagnosis (MDD) systems
achieve promising performance via end-to-end phoneme recognition. One challenge
of such end-to-end solutions is the scarcity of human-annotated phonemes on
natural L2 speech. In this work, we leverage unlabeled L2 speech via a
pseudo-labeling (PL) procedure and extend the fine-tuning approach based on
pre-trained self-supervised learning (SSL) models. Specifically, we use Wav2vec
2.0 as our SSL model, and fine-tune it using original labeled L2 speech samples
plus the created pseudo-labeled L2 speech samples. Our pseudo labels are
dynamic and are produced by an ensemble of the online model on-the-fly, which
ensures that our model is robust to pseudo label noise. We show that
fine-tuning with pseudo labels gains a 5.35% phoneme error rate reduction and
2.48% MDD F1 score improvement over a labeled-samples-only fine-tuning
baseline. The proposed PL method is also shown to outperform conventional
offline PL methods. Compared to the state-of-the-art MDD systems, our MDD
solution achieves a more accurate and consistent phonetic error diagnosis. In
addition, we conduct an open test on a separate UTD-4Accents dataset, where our
system recognition outputs show a strong correlation with human perception,
based on accentedness and intelligibility.
- Abstract(参考訳): 現在の先行的誤発音検出・診断(MDD)システムは、エンドツーエンドの音素認識によって有望な性能を達成する。
このようなエンドツーエンドソリューションの課題の1つは、自然なl2音声に対する人間の注釈付き音素の不足である。
本研究では,擬似ラベル(pl)処理によるラベルなしl2音声の活用と,事前学習型自己教師付き学習(ssl)モデルに基づく微調整手法の拡張を行った。
具体的には、SSLモデルとしてWav2vec 2.0を使用し、オリジナルラベル付きL2音声サンプルと擬ラベル付きL2音声サンプルを使用して微調整する。
擬似ラベルは動的であり,オンラインモデルのオンザフライによるアンサンブルによって生成される。
擬似ラベルを用いた微調整では,5.35%の音素誤り率と2.48%のMDD F1スコアがラベル付きサンプルのみの微調整ベースラインよりも向上した。
また,提案手法は従来のオフラインPL法よりも優れていた。
現状のMDDシステムと比較して,我々のMDDソリューションはより正確で一貫した音声誤り診断を実現する。
さらに,utd-4accentsデータセットを分離してオープンテストを行い,アクセントと知性に基づいて,システム認識出力と人間の知覚との強い相関を示す。
関連論文リスト
- Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling [21.82879779173242]
ラベル付きデータの欠如は、音声分類タスクにおいて共通の課題である。
そこで我々は,新しい多視点擬似ラベル手法を導入したセミスーパーバイザードラーニング(SSL)フレームワークを提案する。
感情認識と認知症検出タスクにおけるSSLフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-09-25T13:51:19Z) - Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source
Localization [9.791311361007397]
本稿では,クロス擬似ラベル法 (XPL) という新しい手法を提案する。
XPLは既存の手法よりも優れており、最先端の性能を達成しつつ、検証バイアスを効果的に軽減している。
論文 参考訳(メタデータ) (2024-03-05T16:28:48Z) - Phonological Level wav2vec2-based Mispronunciation Detection and
Diagnosis Method [11.069975459609829]
音声特徴量検出に基づく低レベルの誤認識検出と診断(MDD)手法を提案する。
提案手法は,母国語からの英語学習者から収集したL2音声コーパスに適用した。
論文 参考訳(メタデータ) (2023-11-13T02:41:41Z) - TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization [54.41494515178297]
話者ダイアリゼーションを単一ラベル分類問題として再検討する。
話者の重なりと依存性を明示的にモデル化できる重なり認識型EEND(EEND-OLA)モデルを提案する。
オリジナルのEENDと比較すると、提案されたEEND-OLAはダイアリゼーションエラー率において14.39%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-03-08T05:05:26Z) - SpeechBlender: Speech Augmentation Framework for Mispronunciation Data
Generation [11.91301106502376]
SpeechBlenderは、誤発音エラーを生成するためのきめ細かいデータ拡張パイプラインである。
提案手法は, ASR 依存型誤発音検出モデルにおいて, Speechocean762 を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-11-02T07:13:30Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - L2B: Learning to Bootstrap Robust Models for Combating Label Noise [52.02335367411447]
本稿では,Learning to Bootstrap (L2B) という,シンプルで効果的な手法を提案する。
モデルは、誤った擬似ラベルの影響を受けずに、自身の予測を使ってブートストラップを行うことができる。
これは、実際の観測されたラベルと生成されたラベル間の重みを動的に調整し、メタラーニングを通じて異なるサンプル間の重みを動的に調整することで実現される。
論文 参考訳(メタデータ) (2022-02-09T05:57:08Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z) - An End-to-End Mispronunciation Detection System for L2 English Speech
Leveraging Novel Anti-Phone Modeling [11.894724235336872]
誤認識検出診断(MDD)はコンピュータ支援発音訓練(CAPT)のコアコンポーネントである
本稿では,新しいエンドツーエンド自動音声認識(E2E-based ASR)アプローチでMDDを実行することを提案する。
特に,元のL2電話機を対応するアンチフォンセットで拡張し,誤発音検出と診断フィードバックの改善を目的としている。
論文 参考訳(メタデータ) (2020-05-25T07:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。