論文の概要: Mispronunciation Detection in Non-native (L2) English with Uncertainty
Modeling
- arxiv url: http://arxiv.org/abs/2101.06396v2
- Date: Mon, 8 Feb 2021 20:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 04:25:47.705194
- Title: Mispronunciation Detection in Non-native (L2) English with Uncertainty
Modeling
- Title(参考訳): 不確かさモデルを用いた非母語(L2)英語の誤認識検出
- Authors: Daniel Korzekwa, Jaime Lorenzo-Trueba, Szymon Zaporowski, Shira
Calamaro, Thomas Drugman, Bozena Kostek
- Abstract要約: 言語学習における誤用の自動検出への一般的なアプローチは、生徒が発する音素を認識し、母語話者の期待される発音と比較することである。
この問題を克服するための新しいアプローチを2つの原則に基づいて提案する。
本研究では,ドイツ語,イタリア語,ポーランド語話者の非母語(L2)話者の発話モデルの評価を行い,誤認識の検出精度を最大18%向上することを示した。
- 参考スコア(独自算出の注目度): 13.451106880540326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common approach to the automatic detection of mispronunciation in language
learning is to recognize the phonemes produced by a student and compare it to
the expected pronunciation of a native speaker. This approach makes two
simplifying assumptions: a) phonemes can be recognized from speech with high
accuracy, b) there is a single correct way for a sentence to be pronounced.
These assumptions do not always hold, which can result in a significant amount
of false mispronunciation alarms. We propose a novel approach to overcome this
problem based on two principles: a) taking into account uncertainty in the
automatic phoneme recognition step, b) accounting for the fact that there may
be multiple valid pronunciations. We evaluate the model on non-native (L2)
English speech of German, Italian and Polish speakers, where it is shown to
increase the precision of detecting mispronunciations by up to 18% (relative)
compared to the common approach.
- Abstract(参考訳): 言語学習における誤用の自動検出への一般的なアプローチは、生徒が発する音素を認識し、母語話者の期待される発音と比較することである。
a) 音素は高い精度で音声から認識することができ、b) 文を発音する唯一の正しい方法がある。
これらの仮定は必ずしも成り立たないため、かなりの量の誤発音警報を引き起こす可能性がある。
そこで本稿では,a) 自動音素認識ステップの不確実性を考慮して,複数の有効な発音が存在することを考慮し,この問題を克服するための新しいアプローチを提案する。
ドイツ語,イタリア語,ポーランド語話者の非母語(l2)英語音声のモデルを評価し,一般的なアプローチと比較して最大18%(相対的)の誤用検出精度が向上することを示した。
関連論文リスト
- Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - Incorporating L2 Phonemes Using Articulatory Features for Robust Speech
Recognition [2.8360662552057323]
本研究は,韓国語音素を指すL2音素の効率的な組み込みについて,音声特徴分析を用いて検討した。
格子のない最大相互情報(LF-MMI)の目的をエンドツーエンドに使い、音響モデルを訓練し、複数の発音候補のうちの1つを調整・予測する。
実験結果から,提案手法は韓国語L2音声のASR精度をL1音声データのみに基づく訓練により向上させることが示された。
論文 参考訳(メタデータ) (2023-06-05T01:55:33Z) - Cross-Lingual Speaker Identification Using Distant Supervision [84.51121411280134]
本稿では,文脈推論の欠如や言語間一般化の低さといった問題に対処する話者識別フレームワークを提案する。
その結果,2つの英語話者識別ベンチマークにおいて,従来の最先端手法よりも9%の精度,5%の精度で性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-11T20:49:44Z) - Computer-assisted Pronunciation Training -- Speech synthesis is almost
all you need [18.446969150062586]
既存のCAPT法では発音誤りを高精度に検出できない。
本稿では,音素対音素(P2P),テキスト対音声(T2S),音声対音声変換(S2S)の3つの革新的な手法を提案する。
これらの手法は、発音誤りを検出するための3つの機械学習モデルの精度を向上させるだけでなく、分野における新しい最先端の確立にも有効であることを示す。
論文 参考訳(メタデータ) (2022-07-02T08:33:33Z) - Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。
さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。
実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文 参考訳(メタデータ) (2022-04-05T21:22:38Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Weakly-supervised word-level pronunciation error detection in non-native
English speech [14.430965595136149]
非ネイティブ(L2)英語音声における単語レベルの誤発音検出のための弱教師付きモデル
音素的に書き起こされたL2音声は不要であり、誤発音した単語のみをマークする必要がある。
本研究では,L2ポーランド語話者のGUTアイルコーパスでは30%,L2ドイツ語話者とイタリア語話者のアイルコーパスでは21.5%の精度でAUCメトリックの単語レベルの発音誤りを検出する精度を向上させる。
論文 参考訳(メタデータ) (2021-06-07T10:31:53Z) - Multitask Learning for Grapheme-to-Phoneme Conversion of Anglicisms in
German Speech Recognition [1.3381749415517017]
アングリシズム(英: Anglicisms)は、ドイツ語の発音が不規則であることによる、ドイツ語の音声認識における課題である。
本稿では,アングリシズムの音素化を改善するために,マルチタスク・シーケンス・ツー・シーケンス・アプローチを提案する。
マルチタスク学習は,ドイツ語音声認識における借用語の課題の解決に有効であることを示す。
論文 参考訳(メタデータ) (2021-05-26T17:42:13Z) - Experiments of ASR-based mispronunciation detection for children and
adult English learners [7.083737676329174]
非母国語話者の発音をチェックする誤発音評価システムを開発した。
本稿では,音声コーパスにおける非母語発音の評価について述べる。
論文 参考訳(メタデータ) (2021-04-13T07:24:05Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。