論文の概要: A Full Text-Dependent End to End Mispronunciation Detection and
Diagnosis with Easy Data Augmentation Techniques
- arxiv url: http://arxiv.org/abs/2104.08428v1
- Date: Sat, 17 Apr 2021 03:11:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:16:42.931087
- Title: A Full Text-Dependent End to End Mispronunciation Detection and
Diagnosis with Easy Data Augmentation Techniques
- Title(参考訳): 簡易データ拡張手法による完全テキスト依存型終末誤字検出と診断
- Authors: Kaiqi Fu and Jones Lin and Dengfeng Ke and Yanlu Xie and Jinsong Zhang
and Binghuai Lin
- Abstract要約: sed-mddとの違いである新しいテキスト依存モデルを提案する。
本論文では,モデルが誤発音音素を捕捉する能力を効果的に向上する3つの単純なデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 28.59181595057581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, end-to-end mispronunciation detection and diagnosis (MD&D) systems
has become a popular alternative to greatly simplify the model-building process
of conventional hybrid DNN-HMM systems by representing complicated modules with
a single deep network architecture. In this paper, in order to utilize the
prior text in the end-to-end structure, we present a novel text-dependent model
which is difference with sed-mdd, the model achieves a fully end-to-end system
by aligning the audio with the phoneme sequences of the prior text inside the
model through the attention mechanism. Moreover, the prior text as input will
be a problem of imbalance between positive and negative samples in the phoneme
sequence. To alleviate this problem, we propose three simple data augmentation
methods, which effectively improve the ability of model to capture
mispronounced phonemes. We conduct experiments on L2-ARCTIC, and our best
performance improved from 49.29% to 56.08% in F-measure metric compared to the
CNN-RNN-CTC model.
- Abstract(参考訳): 近年,複雑なモジュールを1つのディープネットワークアーキテクチャで表現することで,従来のハイブリッドDNN-HMMシステムのモデル構築プロセスを大幅に単純化する手段として,MD&Dシステムが人気となっている。
本稿では,本モデルにおける先行文を,sed-mddと異なるテキスト依存モデルとして,モデル内の先行文の音素列にアテンション機構を通した完全エンドツーエンドシステムを実現する。
さらに、入力としての先行テキストは、音素配列における正と負のサンプルの不均衡の問題となる。
そこで本研究では,この問題を解決するために,誤発音音素を効果的に捕捉するモデルの能力を向上させる3つの簡易データ拡張手法を提案する。
CNN-RNN-CTCモデルと比較して,L2-ARCTICの実験を行い,F測定値の49.29%から56.08%に改善した。
関連論文リスト
- DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Hybrid Attention-based Encoder-decoder Model for Efficient Language Model Adaptation [13.16188747098854]
本稿では,新しい注目型エンコーダデコーダ(HAED)音声認識モデルを提案する。
本モデルでは,アコースティックモデルと言語モデルとを分離し,従来のテキストベース言語モデル適応技術の利用を可能にする。
提案したHAEDモデルは,言語モデル適応にドメイン外テキストデータを使用する場合,相対的単語誤り率(WER)が23%向上することが実証された。
論文 参考訳(メタデータ) (2023-09-14T01:07:36Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Leveraging Symmetrical Convolutional Transformer Networks for Speech to
Singing Voice Style Transfer [49.01417720472321]
我々は、入力音声とターゲットメロディのアライメントをモデル化する、SymNetと呼ばれる新しいニューラルネットワークアーキテクチャを開発する。
音声と歌声の並列データからなるNASデータセットとNHSSデータセットで実験を行う。
論文 参考訳(メタデータ) (2022-08-26T02:54:57Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Improving Tail Performance of a Deliberation E2E ASR Model Using a Large
Text Corpus [35.45918249451485]
E2E(End-to-end)自動音声認識システムには、従来の音声システムの特徴を特徴付ける言語モデル(LM)コンポーネントが欠如している。
推定時にE2Eモデルに事前学習したLMを組み込む方法として浅層核融合法が提案されている。
我々は、非常に大きなテキストコーパスを最先端のE2EASRモデルに組み込むために浅い融合を適用する。
論文 参考訳(メタデータ) (2020-08-24T14:53:10Z) - An Effective End-to-End Modeling Approach for Mispronunciation Detection [12.113290059233977]
誤認識検出タスクに対するCTCAttention(CTCAttention)アプローチの新たな利用法を提案する。
また,テキストプロンプト情報による入力拡張を行い,結果のE2EモデルをMDタスクに適したものにする。
一連のマンダリンMD実験は、我々のアプローチが体系的および実質的な性能改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-05-18T03:37:21Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。