論文の概要: An End-to-End Mispronunciation Detection System for L2 English Speech
Leveraging Novel Anti-Phone Modeling
- arxiv url: http://arxiv.org/abs/2005.11950v2
- Date: Fri, 28 Aug 2020 07:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 06:23:43.620131
- Title: An End-to-End Mispronunciation Detection System for L2 English Speech
Leveraging Novel Anti-Phone Modeling
- Title(参考訳): 新たなアンチフォーンモデリングを利用したL2英語音声の終端誤認識検出システム
- Authors: Bi-Cheng Yan, Meng-Che Wu, Hsiao-Tsung Hung, Berlin Chen
- Abstract要約: 誤認識検出診断(MDD)はコンピュータ支援発音訓練(CAPT)のコアコンポーネントである
本稿では,新しいエンドツーエンド自動音声認識(E2E-based ASR)アプローチでMDDを実行することを提案する。
特に,元のL2電話機を対応するアンチフォンセットで拡張し,誤発音検出と診断フィードバックの改善を目的としている。
- 参考スコア(独自算出の注目度): 11.894724235336872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mispronunciation detection and diagnosis (MDD) is a core component of
computer-assisted pronunciation training (CAPT). Most of the existing MDD
approaches focus on dealing with categorical errors (viz. one canonical phone
is substituted by another one, aside from those mispronunciations caused by
deletions or insertions). However, accurate detection and diagnosis of
non-categorial or distortion errors (viz. approximating L2 phones with L1
(first-language) phones, or erroneous pronunciations in between) still seems
out of reach. In view of this, we propose to conduct MDD with a novel end-
to-end automatic speech recognition (E2E-based ASR) approach. In particular, we
expand the original L2 phone set with their corresponding anti-phone set,
making the E2E-based MDD approach have a better capability to take in both
categorical and non-categorial mispronunciations, aiming to provide better
mispronunciation detection and diagnosis feedback. Furthermore, a novel
transfer-learning paradigm is devised to obtain the initial model estimate of
the E2E-based MDD system without resource to any phonological rules. Extensive
sets of experimental results on the L2-ARCTIC dataset show that our best system
can outperform the existing E2E baseline system and pronunciation scoring based
method (GOP) in terms of the F1-score, by 11.05% and 27.71%, respectively.
- Abstract(参考訳): Mispronunciation Detection and diagnosis (MDD)は、コンピュータ支援発音訓練(CAPT)のコアコンポーネントである。
既存のMDDアプローチのほとんどは、カテゴリー的エラーを扱うことに重点を置いている(つまり、1つの標準電話は、削除や挿入による誤認識を除いて、別のものに置き換えられている)。
しかし,非分類的・歪的誤差 (viz) の正確な検出と診断は困難であった。
L2電話をL1(第一言語)電話で近似する、あるいはその中間の誤発音)は、まだ手が届かないように見える。
そこで我々は,新しいエンドツーエンド自動音声認識(E2E-based ASR)アプローチでMDDを実行することを提案する。
特に,元のL2電話機を対応するアンチフォンセットで拡張することにより,E2EベースのMDDアプローチは,カテゴリ的および非カテゴリ的誤認識の両方に優れた能力を有し,誤認識の検出と診断のフィードバックの向上を目的としている。
さらに,e2eベースのmddシステムの初期モデル推定を音韻規則にリソースを使わずに得るために,新しいトランスファー学習パラダイムを考案した。
L2-ARCTICデータセットにおける実験結果の集合は,F1スコアをそれぞれ11.05%,27.71%,既存のE2Eベースラインシステムと発音スコアベース手法(GOP)より優れていた。
関連論文リスト
- Towards Efficient and Multifaceted Computer-assisted Pronunciation Training Leveraging Hierarchical Selective State Space Model and Decoupled Cross-entropy Loss [5.101375571703936]
HMambaは、APAとMDDタスクをシームレスに並列に統合する新しいCAPTアプローチである。
speechocean762ベンチマークデータセットの総合的な実験結果の集合は、我々のAPAに対するアプローチの有効性を示す。
提案手法は,F1スコア63.85%を達成し,強力なベースラインよりもMDD性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-11T14:17:29Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Phonological Level wav2vec2-based Mispronunciation Detection and
Diagnosis Method [11.069975459609829]
音声特徴量検出に基づく低レベルの誤認識検出と診断(MDD)手法を提案する。
提案手法は,母国語からの英語学習者から収集したL2音声コーパスに適用した。
論文 参考訳(メタデータ) (2023-11-13T02:41:41Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Improving Mispronunciation Detection with Wav2vec2-based Momentum
Pseudo-Labeling for Accentedness and Intelligibility Assessment [28.76055994423364]
現在の誤発音検出・診断システム(MDD)は、エンド・ツー・エンドの音素認識によって有望な性能を達成する。
このようなエンドツーエンドソリューションの課題の1つは、自然なL2音声における人間の注釈付き音素の不足である。
擬似ラベル処理(PL)によるラベルなしL2音声の活用と,事前学習型自己教師付き学習(SSL)モデルに基づく微調整手法の拡張を行う。
論文 参考訳(メタデータ) (2022-03-29T22:40:31Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Improving End-To-End Modeling for Mispronunciation Detection with
Effective Augmentation Mechanisms [17.317583079824423]
本稿では,E2E MDモデルの識別能力を高めるための2つの戦略を提案する。
1つは、DNN-HMM音響モデルから音声識別に関する知識を抽出することを目的とした入力拡張である。
もう1つはラベル拡張で、トレーニングデータの書き起こしからより多くの音韻学的パターンを捕捉する。
論文 参考訳(メタデータ) (2021-10-17T06:11:15Z) - Learning Word-Level Confidence For Subword End-to-End ASR [48.09713798451474]
自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。
提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
論文 参考訳(メタデータ) (2021-03-11T15:03:33Z) - An Effective End-to-End Modeling Approach for Mispronunciation Detection [12.113290059233977]
誤認識検出タスクに対するCTCAttention(CTCAttention)アプローチの新たな利用法を提案する。
また,テキストプロンプト情報による入力拡張を行い,結果のE2EモデルをMDタスクに適したものにする。
一連のマンダリンMD実験は、我々のアプローチが体系的および実質的な性能改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-05-18T03:37:21Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。