論文の概要: Phonological Level wav2vec2-based Mispronunciation Detection and
Diagnosis Method
- arxiv url: http://arxiv.org/abs/2311.07037v1
- Date: Mon, 13 Nov 2023 02:41:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:54:18.021851
- Title: Phonological Level wav2vec2-based Mispronunciation Detection and
Diagnosis Method
- Title(参考訳): 音韻レベルwav2vec2に基づく誤発音検出および診断方法
- Authors: Mostafa Shahin, Julien Epps, Beena Ahmed
- Abstract要約: 音声特徴量検出に基づく低レベルの誤認識検出と診断(MDD)手法を提案する。
提案手法は,母国語からの英語学習者から収集したL2音声コーパスに適用した。
- 参考スコア(独自算出の注目度): 11.069975459609829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automatic identification and analysis of pronunciation errors, known as
Mispronunciation Detection and Diagnosis (MDD) plays a crucial role in Computer
Aided Pronunciation Learning (CAPL) tools such as Second-Language (L2) learning
or speech therapy applications. Existing MDD methods relying on analysing
phonemes can only detect categorical errors of phonemes that have an adequate
amount of training data to be modelled. With the unpredictable nature of the
pronunciation errors of non-native or disordered speakers and the scarcity of
training datasets, it is unfeasible to model all types of mispronunciations.
Moreover, phoneme-level MDD approaches have a limited ability to provide
detailed diagnostic information about the error made. In this paper, we propose
a low-level MDD approach based on the detection of speech attribute features.
Speech attribute features break down phoneme production into elementary
components that are directly related to the articulatory system leading to more
formative feedback to the learner. We further propose a multi-label variant of
the Connectionist Temporal Classification (CTC) approach to jointly model the
non-mutually exclusive speech attributes using a single model. The pre-trained
wav2vec2 model was employed as a core model for the speech attribute detector.
The proposed method was applied to L2 speech corpora collected from English
learners from different native languages. The proposed speech attribute MDD
method was further compared to the traditional phoneme-level MDD and achieved a
significantly lower False Acceptance Rate (FAR), False Rejection Rate (FRR),
and Diagnostic Error Rate (DER) over all speech attributes compared to the
phoneme-level equivalent.
- Abstract(参考訳): Mispronunciation Detection and Diagnosis (MDD) として知られる発音誤りの自動識別と解析は、第二言語学習(L2)学習や音声治療などのコンピュータ支援発音学習(CAPL)ツールにおいて重要な役割を果たす。
既存のMDD法は音素の分析に頼っているため、十分な量の訓練データを持つ音素の分類誤差しか検出できない。
非ネイティブ話者や障害話者の発音誤りの予測不可能な性質と訓練データセットの不足により、あらゆる種類の誤認識をモデル化することは不可能である。
さらに,音素レベルのMDDアプローチは誤りの詳細な診断情報を提供する能力に限界がある。
本稿では,音声属性特徴の検出に基づく低レベルmdd手法を提案する。
音声属性の特徴は、音素生成を調音システムに直接関係する基本成分に分解し、学習者により形式的なフィードバックを与える。
さらに,コネクショニスト時間分類(CTC)アプローチのマルチラベル変種を提案し,一モデルを用いて非相互排他的音声属性を共同でモデル化する。
事前訓練したwav2vec2モデルを音声属性検出器のコアモデルとして使用した。
提案手法は,母国語からの英語学習者から収集したL2音声コーパスに適用した。
提案した音声属性MDD法は従来の音素レベルのMDDとさらに比較され,音素レベルの等価値と比較して,FAR,FRR,診断誤差率(DER)が有意に低かった。
関連論文リスト
- It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss
Function for Automatic Pronunciation Assessment [10.844822448167937]
回帰に基づくAPAモデルの学習のための音素コントラストオーディショナル(PCO)損失を提案する。
具体的には、MSE損失に音素識別正則化器を導入し、異なる音素カテゴリの特徴表現を遠方へ誘導する。
speechocean762ベンチマークデータセットで行った広範な実験結果から,本モデルの有効性と有効性が示唆された。
論文 参考訳(メタデータ) (2023-10-03T07:05:37Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Improving Mispronunciation Detection with Wav2vec2-based Momentum
Pseudo-Labeling for Accentedness and Intelligibility Assessment [28.76055994423364]
現在の誤発音検出・診断システム(MDD)は、エンド・ツー・エンドの音素認識によって有望な性能を達成する。
このようなエンドツーエンドソリューションの課題の1つは、自然なL2音声における人間の注釈付き音素の不足である。
擬似ラベル処理(PL)によるラベルなしL2音声の活用と,事前学習型自己教師付き学習(SSL)モデルに基づく微調整手法の拡張を行う。
論文 参考訳(メタデータ) (2022-03-29T22:40:31Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - An Approach to Mispronunciation Detection and Diagnosis with Acoustic,
Phonetic and Linguistic (APL) Embeddings [18.282632348274756]
大量の単語レベルのアノテーションで訓練されたASRモデルから抽出された音声埋め込みは、入力音声の内容のよい表現として機能する。
我々は,より強力なMD&Dシステムを構築するために,音響,音声,言語 (APL) の埋め込み機能を併用することを提案する。
論文 参考訳(メタデータ) (2021-10-14T11:25:02Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z) - An End-to-End Mispronunciation Detection System for L2 English Speech
Leveraging Novel Anti-Phone Modeling [11.894724235336872]
誤認識検出診断(MDD)はコンピュータ支援発音訓練(CAPT)のコアコンポーネントである
本稿では,新しいエンドツーエンド自動音声認識(E2E-based ASR)アプローチでMDDを実行することを提案する。
特に,元のL2電話機を対応するアンチフォンセットで拡張し,誤発音検出と診断フィードバックの改善を目的としている。
論文 参考訳(メタデータ) (2020-05-25T07:27:47Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。