論文の概要: An Effective End-to-End Modeling Approach for Mispronunciation Detection
- arxiv url: http://arxiv.org/abs/2005.08440v1
- Date: Mon, 18 May 2020 03:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 00:05:19.810225
- Title: An Effective End-to-End Modeling Approach for Mispronunciation Detection
- Title(参考訳): 誤り検出のための効率的なエンドツーエンドモデリング手法
- Authors: Tien-Hong Lo, Shi-Yan Weng, Hsiu-Jui Chang, and Berlin Chen
- Abstract要約: 誤認識検出タスクに対するCTCAttention(CTCAttention)アプローチの新たな利用法を提案する。
また,テキストプロンプト情報による入力拡張を行い,結果のE2EモデルをMDタスクに適したものにする。
一連のマンダリンMD実験は、我々のアプローチが体系的および実質的な性能改善をもたらすことを示した。
- 参考スコア(独自算出の注目度): 12.113290059233977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, end-to-end (E2E) automatic speech recognition (ASR) systems have
garnered tremendous attention because of their great success and unified
modeling paradigms in comparison to conventional hybrid DNN-HMM ASR systems.
Despite the widespread adoption of E2E modeling frameworks on ASR, there still
is a dearth of work on investigating the E2E frameworks for use in
computer-assisted pronunciation learning (CAPT), particularly for
Mispronunciation detection (MD). In response, we first present a novel use of
hybrid CTCAttention approach to the MD task, taking advantage of the strengths
of both CTC and the attention-based model meanwhile getting around the need for
phone-level forced alignment. Second, we perform input augmentation with text
prompt information to make the resulting E2E model more tailored for the MD
task. On the other hand, we adopt two MD decision methods so as to better
cooperate with the proposed framework: 1) decision-making based on a
recognition confidence measure or 2) simply based on speech recognition
results. A series of Mandarin MD experiments demonstrate that our approach not
only simplifies the processing pipeline of existing hybrid DNN-HMM systems but
also brings about systematic and substantial performance improvements.
Furthermore, input augmentation with text prompts seems to hold excellent
promise for the E2E-based MD approach.
- Abstract(参考訳): 近年,従来のハイブリッドDNN-HMM ASRシステムと比較して,その大成功と統一モデリングパラダイムにより,エンド・ツー・エンド(E2E)自動音声認識(ASR)システムが注目されている。
ASR上ではE2Eモデリングフレームワークが広く採用されているが、コンピュータ支援発音学習(CAPT)、特にMispronunciation Detection(MD)で使用されるE2Eフレームワークの研究は、現在でも続いている。
そこで我々はまず,mdタスクに対するハイブリッド型ctcattentionアプローチの新たな利用法を提案し,電話レベルの強制アライメントの必要性を回避しつつ,ctcと注意に基づくモデルの両方の強みを生かした。
次に,テキストプロンプト情報を用いて入力拡張を行い,結果のE2EモデルをMDタスクに適したものにする。
一方、提案した枠組みによりよく協力するため、2つのMD決定手法を採用する。
1)認識信頼度尺度に基づく意思決定又は
2) 単に音声認識結果に基づく。
一連のマンダリンMD実験により、我々のアプローチは既存のハイブリッドDNN-HMMシステムの処理パイプラインを単純化するだけでなく、体系的および実質的な性能改善をもたらすことを示した。
さらに、テキストプロンプトによる入力増強は、E2EベースのMDアプローチに優れた可能性を秘めているようである。
関連論文リスト
- Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - Enhancing CTC-based speech recognition with diverse modeling units [2.723573795552244]
近年,エンド・ツー・エンド(E2E)自動音声認識(ASR)モデルの進化が目覚ましい。
E2Eシステムの上に、研究者はE2EモデルのN-best仮説を音素モデルで再現することで、かなり精度を向上した。
本稿では,E2Eモデルと多種多様なモデリングユニットを併用した効率的な共同学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-05T13:52:55Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - Acoustic Model Fusion for End-to-end Speech Recognition [7.431401982826315]
音声認識システムは、音響モデル(AM)や言語モデル(LM)など、従来のASRコンポーネントをすべて暗黙的にモデル化する。
ドメインミスマッチに対処するために,外部AMをE2Eシステムに統合することを提案する。
単語エラー率の大幅な削減を実現し、様々なテストセットで最大14.3%の大幅な低下を実現しました。
論文 参考訳(メタデータ) (2023-10-10T23:00:17Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Integrate Lattice-Free MMI into End-to-End Speech Recognition [87.01137882072322]
音声認識(ASR)研究において、識別基準はDNN-HMMシステムにおいて優れた性能を達成している。
このモチベーションにより、差別的基準の採用は、エンドツーエンド(E2E)のASRシステムの性能を高めることを約束している。
これまでの研究は、最小ベイズリスク(MBR、差別基準の一つ)をE2E ASRシステムに導入してきた。
本研究では,他の広く使われている識別基準であるLF-MMIをE2Eに統合する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-29T14:32:46Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z) - Exploring Non-Autoregressive End-To-End Neural Modeling For English
Mispronunciation Detection And Diagnosis [12.153618111267514]
エンド・ツー・エンド(E2E)ニューラル・モデリングは、コンピュータ支援言語訓練(CAPT)システムを開発する主要な研究分野として登場した。
本稿では,非自己回帰(NAR)E2Eニューラルモデリングを利用して推論時間を劇的に高速化する新しいMD&D手法を提案する。
さらに,本手法のNAR E2Eモデル上に積み重ねた発音モデリングネットワークを設計・開発し,MD&Dの有効性をさらに向上する。
論文 参考訳(メタデータ) (2021-11-01T11:23:48Z) - Improving End-To-End Modeling for Mispronunciation Detection with
Effective Augmentation Mechanisms [17.317583079824423]
本稿では,E2E MDモデルの識別能力を高めるための2つの戦略を提案する。
1つは、DNN-HMM音響モデルから音声識別に関する知識を抽出することを目的とした入力拡張である。
もう1つはラベル拡張で、トレーニングデータの書き起こしからより多くの音韻学的パターンを捕捉する。
論文 参考訳(メタデータ) (2021-10-17T06:11:15Z) - Have best of both worlds: two-pass hybrid and E2E cascading framework
for speech recognition [71.30167252138048]
ハイブリッド・エンド・ツー・エンド(E2E)システムは音声認識結果に異なる誤りパターンを持つ。
本稿では,ハイブリッドモデルとE2Eモデルを組み合わせた2パスハイブリッドおよびE2Eカスケーディング(HEC)フレームワークを提案する。
提案システムでは,各システムに対して8~10%の単語誤り率削減を実現している。
論文 参考訳(メタデータ) (2021-10-10T20:11:38Z) - Learning Word-Level Confidence For Subword End-to-End ASR [48.09713798451474]
自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。
提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
論文 参考訳(メタデータ) (2021-03-11T15:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。