論文の概要: Improving End-To-End Modeling for Mispronunciation Detection with
Effective Augmentation Mechanisms
- arxiv url: http://arxiv.org/abs/2110.08731v1
- Date: Sun, 17 Oct 2021 06:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 07:29:03.615049
- Title: Improving End-To-End Modeling for Mispronunciation Detection with
Effective Augmentation Mechanisms
- Title(参考訳): 効果的な拡張機構を用いたミスプロニュシエーション検出のためのエンド・ツー・エンドモデルの改善
- Authors: Tien-Hong Lo, Yao-Ting Sung and Berlin Chen
- Abstract要約: 本稿では,E2E MDモデルの識別能力を高めるための2つの戦略を提案する。
1つは、DNN-HMM音響モデルから音声識別に関する知識を抽出することを目的とした入力拡張である。
もう1つはラベル拡張で、トレーニングデータの書き起こしからより多くの音韻学的パターンを捕捉する。
- 参考スコア(独自算出の注目度): 17.317583079824423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, end-to-end (E2E) models, which allow to take spectral vector
sequences of L2 (second-language) learners' utterances as input and produce the
corresponding phone-level sequences as output, have attracted much research
attention in developing mispronunciation detection (MD) systems. However, due
to the lack of sufficient labeled speech data of L2 speakers for model
estimation, E2E MD models are prone to overfitting in relation to conventional
ones that are built on DNN-HMM acoustic models. To alleviate this critical
issue, we in this paper propose two modeling strategies to enhance the
discrimination capability of E2E MD models, each of which can implicitly
leverage the phonetic and phonological traits encoded in a pretrained acoustic
model and contained within reference transcripts of the training data,
respectively. The first one is input augmentation, which aims to distill
knowledge about phonetic discrimination from a DNN-HMM acoustic model. The
second one is label augmentation, which manages to capture more phonological
patterns from the transcripts of training data. A series of empirical
experiments conducted on the L2-ARCTIC English dataset seem to confirm the
efficacy of our E2E MD model when compared to some top-of-the-line E2E MD
models and a classic pronunciation-scoring based method built on a DNN-HMM
acoustic model.
- Abstract(参考訳): 近年,L2学習者の発話のスペクトルベクトル列を入力とし,対応する音声レベル列を出力として生成するエンド・ツー・エンド(E2E)モデルが,誤発音検出(MD)システムの開発において注目されている。
しかし、モデル推定にL2話者の十分なラベル付き音声データが不足しているため、DNN-HMM音響モデルに基づく従来のモデルと比較して、E2E MDモデルは過度に適合する傾向にある。
そこで本研究では,E2E MDモデルの識別能力を高めるための2つのモデリング手法を提案する。
1つ目は、DNN-HMM音響モデルから音声識別に関する知識を抽出することを目的とした入力拡張である。
2つ目はラベル拡張で、トレーニングデータの書き起こしからより多くの音韻学的パターンをキャプチャする。
L2-ARCTIC の英語データセットを用いた実験実験により,DNN-HMM音響モデルを用いて構築した最上位のE2E MDモデルと古典的な発音基準に基づく手法と比較して,E2E MDモデルの有効性が確認された。
関連論文リスト
- Enhancing CTC-based speech recognition with diverse modeling units [2.723573795552244]
近年,エンド・ツー・エンド(E2E)自動音声認識(ASR)モデルの進化が目覚ましい。
E2Eシステムの上に、研究者はE2EモデルのN-best仮説を音素モデルで再現することで、かなり精度を向上した。
本稿では,E2Eモデルと多種多様なモデリングユニットを併用した効率的な共同学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-05T13:52:55Z) - Phonological Level wav2vec2-based Mispronunciation Detection and
Diagnosis Method [11.069975459609829]
音声特徴量検出に基づく低レベルの誤認識検出と診断(MDD)手法を提案する。
提案手法は,母国語からの英語学習者から収集したL2音声コーパスに適用した。
論文 参考訳(メタデータ) (2023-11-13T02:41:41Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization [48.35495352015281]
エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
論文 参考訳(メタデータ) (2023-06-07T08:23:58Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Exploring Non-Autoregressive End-To-End Neural Modeling For English
Mispronunciation Detection And Diagnosis [12.153618111267514]
エンド・ツー・エンド(E2E)ニューラル・モデリングは、コンピュータ支援言語訓練(CAPT)システムを開発する主要な研究分野として登場した。
本稿では,非自己回帰(NAR)E2Eニューラルモデリングを利用して推論時間を劇的に高速化する新しいMD&D手法を提案する。
さらに,本手法のNAR E2Eモデル上に積み重ねた発音モデリングネットワークを設計・開発し,MD&Dの有効性をさらに向上する。
論文 参考訳(メタデータ) (2021-11-01T11:23:48Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Internal Language Model Estimation for Domain-Adaptive End-to-End Speech
Recognition [56.27081731553829]
内部言語モデル(LM)の統合は、エンドツーエンド(E2E)自動音声認識の課題である。
本稿では,既存のすべてのE2Eモデルと外部LMをより効果的に統合するための内部LM推定(ILME)手法を提案する。
ILMEは、トレーニングとテストの間のドメインミスマッチを緩和したり、マルチドメインのE2E ASRを改善することができる。
論文 参考訳(メタデータ) (2020-11-03T20:11:04Z) - An End-to-End Mispronunciation Detection System for L2 English Speech
Leveraging Novel Anti-Phone Modeling [11.894724235336872]
誤認識検出診断(MDD)はコンピュータ支援発音訓練(CAPT)のコアコンポーネントである
本稿では,新しいエンドツーエンド自動音声認識(E2E-based ASR)アプローチでMDDを実行することを提案する。
特に,元のL2電話機を対応するアンチフォンセットで拡張し,誤発音検出と診断フィードバックの改善を目的としている。
論文 参考訳(メタデータ) (2020-05-25T07:27:47Z) - An Effective End-to-End Modeling Approach for Mispronunciation Detection [12.113290059233977]
誤認識検出タスクに対するCTCAttention(CTCAttention)アプローチの新たな利用法を提案する。
また,テキストプロンプト情報による入力拡張を行い,結果のE2EモデルをMDタスクに適したものにする。
一連のマンダリンMD実験は、我々のアプローチが体系的および実質的な性能改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-05-18T03:37:21Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。