論文の概要: Text-Aware End-to-end Mispronunciation Detection and Diagnosis
- arxiv url: http://arxiv.org/abs/2206.07289v1
- Date: Wed, 15 Jun 2022 04:08:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 15:17:20.741213
- Title: Text-Aware End-to-end Mispronunciation Detection and Diagnosis
- Title(参考訳): テキスト認識によるエンドツーエンド誤検出と診断
- Authors: Linkai Peng, Yingming Gao, Binghuai Lin, Dengfeng Ke, Yanlu Xie,
Jinsong Zhang
- Abstract要約: 誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である
本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
- 参考スコア(独自算出の注目度): 17.286013739453796
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mispronunciation detection and diagnosis (MDD) technology is a key component
of computer-assisted pronunciation training system (CAPT). In the field of
assessing the pronunciation quality of constrained speech, the given
transcriptions can play the role of a teacher. Conventional methods have fully
utilized the prior texts for the model construction or improving the system
performance, e.g. forced-alignment and extended recognition networks. Recently,
some end-to-end based methods attempt to incorporate the prior texts into model
training and preliminarily show the effectiveness. However, previous studies
mostly consider applying raw attention mechanism to fuse audio representations
with text representations, without taking possible text-pronunciation mismatch
into account. In this paper, we present a gating strategy that assigns more
importance to the relevant audio features while suppressing irrelevant text
information. Moreover, given the transcriptions, we design an extra contrastive
loss to reduce the gap between the learning objective of phoneme recognition
and MDD. We conducted experiments using two publicly available datasets (TIMIT
and L2-Arctic) and our best model improved the F1 score from $57.51\%$ to
$61.75\%$ compared to the baselines. Besides, we provide a detailed analysis to
shed light on the effectiveness of gating mechanism and contrastive learning on
MDD.
- Abstract(参考訳): 誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である。
制約付き音声の発音品質を評価する分野では、与えられた書き起こしは教師の役割を果たすことができる。
従来の手法では、モデル構築やシステム性能の向上、例えば強制調整や拡張認識ネットワークなど、事前のテキストを十分に活用してきた。
近年,従来のテキストをモデルトレーニングに組み込もうとするエンド・ツー・エンドの手法が,その有効性を事前に示している。
しかし、従来の研究では、テキストの発音ミスマッチを考慮せずに、音声表現とテキスト表現を融合させる生の注意機構を主に検討していた。
本稿では,無関係なテキスト情報を抑圧しながら,関連する音声特徴をより重要視するゲーティング戦略を提案する。
さらに,音素認識の学習目標とmddとのギャップを減らすために,文字の書き起こしを考慮すれば,さらに対照的なロスをデザインする。
我々は2つの公開データセット(TIMITとL2-Arctic)を用いて実験を行い、ベースラインと比較してF1スコアを57.51\%から611.75\%に改善した。
また,MDDにおけるゲーティング機構とコントラスト学習の有効性について,詳細な解析を行った。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Text Injection for Capitalization and Turn-Taking Prediction in Speech
Models [45.94388391693112]
本研究では,E2Eモデルでしばしば実行される非ASRタスクである補助タスクに対するテキストインジェクションの利用について検討する。
テキストインジェクション法により,長期データに対するキャピタライゼーション性能が向上することを示す。
論文 参考訳(メタデータ) (2023-08-14T18:28:04Z) - Improving Deliberation by Text-Only and Semi-Supervised Training [42.942428288428836]
本稿では,テキストのみによる半教師付きトレーニングを,注意に基づく検討モデルに取り入れることを提案する。
基準検討と比較して, WER の 4%-12% 削減を実現している。
また, 検討モデルにより, 肯定的な評価がもたらされることが示唆された。
論文 参考訳(メタデータ) (2022-06-29T15:30:44Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - The effectiveness of unsupervised subword modeling with autoregressive
and cross-lingual phone-aware networks [36.24509775775634]
自己監督学習と多言語知識伝達を組み合わせた2段階学習フレームワークを提案する。
Libri-lightおよびZeroSpeech 2017データベースで実施したABXサブワード識別性タスクの実験により、我々のアプローチは最先端の研究よりも競争力があるか優れていることが示された。
論文 参考訳(メタデータ) (2020-12-17T12:33:49Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Phoneme Boundary Detection using Learnable Segmental Features [31.203969460341817]
音素境界検出は様々な音声処理アプリケーションにおいて重要な第一歩となる。
本稿では,音素境界検出タスクのセグメント表現を学習するために,パラメータ化された構造的損失関数と結合したニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-11T14:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。