論文の概要: Weakly-supervised word-level pronunciation error detection in non-native
English speech
- arxiv url: http://arxiv.org/abs/2106.03494v1
- Date: Mon, 7 Jun 2021 10:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:32:14.070709
- Title: Weakly-supervised word-level pronunciation error detection in non-native
English speech
- Title(参考訳): 非母語音声における弱教師付き単語レベルの発音誤り検出
- Authors: Daniel Korzekwa, Jaime Lorenzo-Trueba, Thomas Drugman, Shira Calamaro,
Bozena Kostek
- Abstract要約: 非ネイティブ(L2)英語音声における単語レベルの誤発音検出のための弱教師付きモデル
音素的に書き起こされたL2音声は不要であり、誤発音した単語のみをマークする必要がある。
本研究では,L2ポーランド語話者のGUTアイルコーパスでは30%,L2ドイツ語話者とイタリア語話者のアイルコーパスでは21.5%の精度でAUCメトリックの単語レベルの発音誤りを検出する精度を向上させる。
- 参考スコア(独自算出の注目度): 14.430965595136149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a weakly-supervised model for word-level mispronunciation
detection in non-native (L2) English speech. To train this model, phonetically
transcribed L2 speech is not required and we only need to mark mispronounced
words. The lack of phonetic transcriptions for L2 speech means that the model
has to learn only from a weak signal of word-level mispronunciations. Because
of that and due to the limited amount of mispronounced L2 speech, the model is
more likely to overfit. To limit this risk, we train it in a multi-task setup.
In the first task, we estimate the probabilities of word-level
mispronunciation. For the second task, we use a phoneme recognizer trained on
phonetically transcribed L1 speech that is easily accessible and can be
automatically annotated. Compared to state-of-the-art approaches, we improve
the accuracy of detecting word-level pronunciation errors in AUC metric by 30%
on the GUT Isle Corpus of L2 Polish speakers, and by 21.5% on the Isle Corpus
of L2 German and Italian speakers.
- Abstract(参考訳): 非母語(l2)英語音声における単語レベル誤り検出のための弱教師付きモデルを提案する。
このモデルを訓練するためには、音声で書き起こされたL2音声は必要ない。
L2音声のための音素転写の欠如は、モデルが単語レベルの誤認識の弱い信号からのみ学習しなければならないことを意味する。
そのため、誤発音のL2音声が限られたため、モデルは過度に適合する可能性が高い。
このリスクを制限するため、マルチタスクのセットアップでトレーニングします。
最初のタスクでは、単語レベルの誤発音の確率を推定する。
第2のタスクでは、音素的に書き起こされたL1音声で訓練された音素認識器を使用し、容易にアクセスでき、自動的に注釈を付けることができる。
本研究では,L2ポーランド語話者のGUTアイルコーパスでは30%,L2ドイツ語話者とイタリア語話者のアイルコーパスでは21.5%の精度でAUCメトリックの単語レベルの発音誤りを検出する精度を向上させる。
関連論文リスト
- Inter-linguistic Phonetic Composition (IPC): A Theoretical and Computational Approach to Enhance Second Language Pronunciation [1.3024517678456733]
第二言語(L2)の学習者は、しばしば意識不明なL2音素を母語(L1)から類似の音素で置き換える
この音素置換は、L2の標準的な音韻学的パターンから逸脱する。
誤り音素移動を最小限に抑える新しい計算法として,言語間音声合成法(IPC)を提案する。
論文 参考訳(メタデータ) (2024-11-17T01:15:58Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Incorporating L2 Phonemes Using Articulatory Features for Robust Speech
Recognition [2.8360662552057323]
本研究は,韓国語音素を指すL2音素の効率的な組み込みについて,音声特徴分析を用いて検討した。
格子のない最大相互情報(LF-MMI)の目的をエンドツーエンドに使い、音響モデルを訓練し、複数の発音候補のうちの1つを調整・予測する。
実験結果から,提案手法は韓国語L2音声のASR精度をL1音声データのみに基づく訓練により向上させることが示された。
論文 参考訳(メタデータ) (2023-06-05T01:55:33Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Computer-assisted Pronunciation Training -- Speech synthesis is almost
all you need [18.446969150062586]
既存のCAPT法では発音誤りを高精度に検出できない。
本稿では,音素対音素(P2P),テキスト対音声(T2S),音声対音声変換(S2S)の3つの革新的な手法を提案する。
これらの手法は、発音誤りを検出するための3つの機械学習モデルの精度を向上させるだけでなく、分野における新しい最先端の確立にも有効であることを示す。
論文 参考訳(メタデータ) (2022-07-02T08:33:33Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Experiments of ASR-based mispronunciation detection for children and
adult English learners [7.083737676329174]
非母国語話者の発音をチェックする誤発音評価システムを開発した。
本稿では,音声コーパスにおける非母語発音の評価について述べる。
論文 参考訳(メタデータ) (2021-04-13T07:24:05Z) - Mispronunciation Detection in Non-native (L2) English with Uncertainty
Modeling [13.451106880540326]
言語学習における誤用の自動検出への一般的なアプローチは、生徒が発する音素を認識し、母語話者の期待される発音と比較することである。
この問題を克服するための新しいアプローチを2つの原則に基づいて提案する。
本研究では,ドイツ語,イタリア語,ポーランド語話者の非母語(L2)話者の発話モデルの評価を行い,誤認識の検出精度を最大18%向上することを示した。
論文 参考訳(メタデータ) (2021-01-16T08:03:51Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。