論文の概要: Exploring Non-Autoregressive End-To-End Neural Modeling For English
Mispronunciation Detection And Diagnosis
- arxiv url: http://arxiv.org/abs/2111.00844v1
- Date: Mon, 1 Nov 2021 11:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 16:29:35.543611
- Title: Exploring Non-Autoregressive End-To-End Neural Modeling For English
Mispronunciation Detection And Diagnosis
- Title(参考訳): 英語誤読検出と診断のための非自己回帰的エンドツーエンドニューラルモデリングの検討
- Authors: Hsin-Wei Wang, Bi-Cheng Yan, Hsuan-Sheng Chiu, Yung-Chang Hsu, Berlin
Chen
- Abstract要約: エンド・ツー・エンド(E2E)ニューラル・モデリングは、コンピュータ支援言語訓練(CAPT)システムを開発する主要な研究分野として登場した。
本稿では,非自己回帰(NAR)E2Eニューラルモデリングを利用して推論時間を劇的に高速化する新しいMD&D手法を提案する。
さらに,本手法のNAR E2Eモデル上に積み重ねた発音モデリングネットワークを設計・開発し,MD&Dの有効性をさらに向上する。
- 参考スコア(独自算出の注目度): 12.153618111267514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) neural modeling has emerged as one predominant school of
thought to develop computer-assisted language training (CAPT) systems, showing
competitive performance to conventional pronunciation-scoring based methods.
However, current E2E neural methods for CAPT are faced with at least two
pivotal challenges. On one hand, most of the E2E methods operate in an
autoregressive manner with left-to-right beam search to dictate the
pronunciations of an L2 learners. This however leads to very slow inference
speed, which inevitably hinders their practical use. On the other hand, E2E
neural methods are normally data greedy and meanwhile an insufficient amount of
nonnative training data would often reduce their efficacy on mispronunciation
detection and diagnosis (MD&D). In response, we put forward a novel MD&D method
that leverages non-autoregressive (NAR) E2E neural modeling to dramatically
speed up the inference time while maintaining performance in line with the
conventional E2E neural methods. In addition, we design and develop a
pronunciation modeling network stacked on top of the NAR E2E models of our
method to further boost the effectiveness of MD&D. Empirical experiments
conducted on the L2-ARCTIC English dataset seems to validate the feasibility of
our method, in comparison to some top-of-the-line E2E models and an iconic
pronunciation-scoring based method built on a DNN-HMM acoustic model.
- Abstract(参考訳): エンド・ツー・エンド(E2E)ニューラル・モデリングは、コンピュータ支援言語訓練(CAPT)システムの開発を主な研究分野としており、従来の発音に基づく手法と競合する性能を示している。
しかし、CAPTの現在のE2Eニューラルメソッドは、少なくとも2つの重要な課題に直面している。
一方、E2E法のほとんどは、左から右へのビームサーチで自己回帰的に動作し、L2学習者の発音を指示する。
しかし、これは推論の速度が非常に遅くなり、必然的に実用を妨げます。
一方、E2Eニューラルメソッドは通常データ欲求であり、非ネイティブなトレーニングデータが不足すると、誤発音の検出と診断(MD&D)に対する効果が低下することがしばしばある。
そこで我々は,非自己回帰(NAR)E2Eニューラルモデリングを利用した新しいMD&D手法を提案し,従来のE2Eニューラル手法と同等の性能を維持しつつ,推論時間を劇的に高速化した。
さらに,本手法のNAR E2Eモデル上に積み重ねた発音モデリングネットワークを設計・開発し,MD&Dの有効性をさらに向上する。
DNN-HMM音響モデル上に構築された最上位のE2Eモデルと象徴的発音スコアに基づく手法と比較して,L2-ARCTIC英語データセットを用いた実験により本手法の有効性が検証された。
関連論文リスト
- EEGDiR: Electroencephalogram denoising network for temporal information storage and global modeling through Retentive Network [11.491355463353731]
我々はRetnetを自然言語処理から脳波分解まで導入する。
Retnetの脳波への直接的適用は脳波信号の1次元の性質のため不可能である。
本稿では,1次元の脳波信号を2次元に変換してネットワーク入力として用いる信号埋め込み手法を提案する。
論文 参考訳(メタデータ) (2024-03-20T15:04:21Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization [48.35495352015281]
エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
論文 参考訳(メタデータ) (2023-06-07T08:23:58Z) - A Likelihood Ratio based Domain Adaptation Method for E2E Models [10.510472957585646]
Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
論文 参考訳(メタデータ) (2022-01-10T21:22:39Z) - Improving End-To-End Modeling for Mispronunciation Detection with
Effective Augmentation Mechanisms [17.317583079824423]
本稿では,E2E MDモデルの識別能力を高めるための2つの戦略を提案する。
1つは、DNN-HMM音響モデルから音声識別に関する知識を抽出することを目的とした入力拡張である。
もう1つはラベル拡張で、トレーニングデータの書き起こしからより多くの音韻学的パターンを捕捉する。
論文 参考訳(メタデータ) (2021-10-17T06:11:15Z) - Improving Character Error Rate Is Not Equal to Having Clean Speech:
Speech Enhancement for ASR Systems with Black-box Acoustic Models [1.6328866317851185]
本稿では,ディープニューラルネットワーク(DNN)に基づく音声強調(SE)を提案する。
提案手法は2つのDNNを用いており、1つは音声処理用、もう1つは音響モデル(AM)による出力CERを模倣する。
実験の結果,一定の雑音レベルを維持しながら,ブラックボックスAMによるCERの相対値が7.3%向上したことがわかった。
論文 参考訳(メタデータ) (2021-10-12T12:51:53Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Internal Language Model Estimation for Domain-Adaptive End-to-End Speech
Recognition [56.27081731553829]
内部言語モデル(LM)の統合は、エンドツーエンド(E2E)自動音声認識の課題である。
本稿では,既存のすべてのE2Eモデルと外部LMをより効果的に統合するための内部LM推定(ILME)手法を提案する。
ILMEは、トレーニングとテストの間のドメインミスマッチを緩和したり、マルチドメインのE2E ASRを改善することができる。
論文 参考訳(メタデータ) (2020-11-03T20:11:04Z) - Orthros: Non-autoregressive End-to-end Speech Translation with
Dual-decoder [64.55176104620848]
NARと自己回帰(AR)デコーダの両方を共有音声エンコーダで共同で訓練する新しいNAR E2E-STフレームワークOrthrosを提案する。
後者は、前者から生成される様々な長の候補間のより良い翻訳を選択するために使用され、これは、無視できるオーバーヘッドを持つ大きな長のビームの有効性を劇的に向上させる。
4つのベンチマーク実験により、競合翻訳品質を維持しつつ、推論速度を向上させる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-10-25T06:35:30Z) - An Effective End-to-End Modeling Approach for Mispronunciation Detection [12.113290059233977]
誤認識検出タスクに対するCTCAttention(CTCAttention)アプローチの新たな利用法を提案する。
また,テキストプロンプト情報による入力拡張を行い,結果のE2EモデルをMDタスクに適したものにする。
一連のマンダリンMD実験は、我々のアプローチが体系的および実質的な性能改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-05-18T03:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。