論文の概要: Experiments of ASR-based mispronunciation detection for children and
adult English learners
- arxiv url: http://arxiv.org/abs/2104.05980v1
- Date: Tue, 13 Apr 2021 07:24:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 22:38:38.479429
- Title: Experiments of ASR-based mispronunciation detection for children and
adult English learners
- Title(参考訳): 児童・成人英語学習者を対象としたasrに基づく誤用検出実験
- Authors: Nina Hosseini-Kivanani, Roberto Gretter, Marco Matassoni, and Giuseppe
Daniele Falavigna
- Abstract要約: 非母国語話者の発音をチェックする誤発音評価システムを開発した。
本稿では,音声コーパスにおける非母語発音の評価について述べる。
- 参考スコア(独自算出の注目度): 7.083737676329174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pronunciation is one of the fundamentals of language learning, and it is
considered a primary factor of spoken language when it comes to an
understanding and being understood by others. The persistent presence of high
error rates in speech recognition domains resulting from mispronunciations
motivates us to find alternative techniques for handling mispronunciations. In
this study, we develop a mispronunciation assessment system that checks the
pronunciation of non-native English speakers, identifies the commonly
mispronounced phonemes of Italian learners of English, and presents an
evaluation of the non-native pronunciation observed in phonetically annotated
speech corpora. In this work, to detect mispronunciations, we used a
phone-based ASR implemented using Kaldi. We used two non-native English labeled
corpora; (i) a corpus of Italian adults contains 5,867 utterances from 46
speakers, and (ii) a corpus of Italian children consists of 5,268 utterances
from 78 children. Our results show that the selected error model can
discriminate correct sounds from incorrect sounds in both native and nonnative
speech, and therefore can be used to detect pronunciation errors in non-native
speech. The phone error rates show improvement in using the error language
model. The ASR system shows better accuracy after applying the error model on
our selected corpora.
- Abstract(参考訳): 発音は言語学習の基礎の1つであり、他者による理解や理解において、話し言葉の主要な要素であると考えられている。
誤認識による音声認識領域における高い誤り率の存在は、誤認識を扱う代替手法を見つける動機となる。
本研究では,非母語話者の発音をチェックする誤発音評価システムを開発し,イタリア語学習者の英語の発音を誤発音し,音素に注釈付けされた音声コーパスで観察される非母語発音の評価を行う。
そこで本研究では,Kaldi を用いた携帯電話ベースの ASR を用いた。
i) イタリア人の成人のコーパスは46人の話者から5,867人の発話を、ii) イタリア人の子どものコーパスは78人の子どもから5,268の発話からなる。
その結果,選択した誤りモデルにより,母国語と非母国語の両方で誤り音とを識別し,非母国語における発音誤りを検出することができることがわかった。
電話誤り率は誤り言語モデルを用いた場合の改善を示す。
ASRシステムは, 選択したコーパスに誤差モデルを適用し, 精度が向上した。
関連論文リスト
- Improving Pronunciation and Accent Conversion through Knowledge Distillation And Synthetic Ground-Truth from Native TTS [52.89324095217975]
アクセント変換に対する従来のアプローチは主に非ネイティブ音声をよりネイティブにすることを目的としていた。
我々は、アクセント変換だけでなく、非ネイティブアクセント話者の発音を改善する新しいACアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-19T06:12:31Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Automatic Speech Recognition (ASR) for the Diagnosis of pronunciation of
Speech Sound Disorders in Korean children [4.840474991678558]
本研究では,音声障害児の発音障害を診断するための音声認識モデルを提案する。
モデルの単語の発音予測は、約90%の精度で人間のアノテーションと一致した。
論文 参考訳(メタデータ) (2024-03-13T02:20:05Z) - DDSupport: Language Learning Support System that Displays Differences
and Distances from Model Speech [16.82591185507251]
音声のスコアを計算し,初心者による誤認識を検出する新しい言語学習支援システムを提案する。
提案システムは,深層学習に基づく音声処理を用いて,学習者の音声の発音スコアと,学習者とモデルの発音群との差/距離を表示する。
論文 参考訳(メタデータ) (2022-12-08T05:49:15Z) - Computer-assisted Pronunciation Training -- Speech synthesis is almost
all you need [18.446969150062586]
既存のCAPT法では発音誤りを高精度に検出できない。
本稿では,音素対音素(P2P),テキスト対音声(T2S),音声対音声変換(S2S)の3つの革新的な手法を提案する。
これらの手法は、発音誤りを検出するための3つの機械学習モデルの精度を向上させるだけでなく、分野における新しい最先端の確立にも有効であることを示す。
論文 参考訳(メタデータ) (2022-07-02T08:33:33Z) - Weakly-supervised word-level pronunciation error detection in non-native
English speech [14.430965595136149]
非ネイティブ(L2)英語音声における単語レベルの誤発音検出のための弱教師付きモデル
音素的に書き起こされたL2音声は不要であり、誤発音した単語のみをマークする必要がある。
本研究では,L2ポーランド語話者のGUTアイルコーパスでは30%,L2ドイツ語話者とイタリア語話者のアイルコーパスでは21.5%の精度でAUCメトリックの単語レベルの発音誤りを検出する精度を向上させる。
論文 参考訳(メタデータ) (2021-06-07T10:31:53Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Mispronunciation Detection in Non-native (L2) English with Uncertainty
Modeling [13.451106880540326]
言語学習における誤用の自動検出への一般的なアプローチは、生徒が発する音素を認識し、母語話者の期待される発音と比較することである。
この問題を克服するための新しいアプローチを2つの原則に基づいて提案する。
本研究では,ドイツ語,イタリア語,ポーランド語話者の非母語(L2)話者の発話モデルの評価を行い,誤認識の検出精度を最大18%向上することを示した。
論文 参考訳(メタデータ) (2021-01-16T08:03:51Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。