論文の概要: Computer-assisted Pronunciation Training -- Speech synthesis is almost
all you need
- arxiv url: http://arxiv.org/abs/2207.00774v1
- Date: Sat, 2 Jul 2022 08:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 09:49:32.147007
- Title: Computer-assisted Pronunciation Training -- Speech synthesis is almost
all you need
- Title(参考訳): コンピュータ支援の発音訓練 - 音声合成は必要なほとんどすべてだ
- Authors: Daniel Korzekwa, Jaime Lorenzo-Trueba, Thomas Drugman, Bozena Kostek
- Abstract要約: 既存のCAPT法では発音誤りを高精度に検出できない。
本稿では,音素対音素(P2P),テキスト対音声(T2S),音声対音声変換(S2S)の3つの革新的な手法を提案する。
これらの手法は、発音誤りを検出するための3つの機械学習モデルの精度を向上させるだけでなく、分野における新しい最先端の確立にも有効であることを示す。
- 参考スコア(独自算出の注目度): 18.446969150062586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The research community has long studied computer-assisted pronunciation
training (CAPT) methods in non-native speech. Researchers focused on studying
various model architectures, such as Bayesian networks and deep learning
methods, as well as on the analysis of different representations of the speech
signal. Despite significant progress in recent years, existing CAPT methods are
not able to detect pronunciation errors with high accuracy (only 60\% precision
at 40\%-80\% recall). One of the key problems is the low availability of
mispronounced speech that is needed for the reliable training of pronunciation
error detection models. If we had a generative model that could mimic
non-native speech and produce any amount of training data, then the task of
detecting pronunciation errors would be much easier. We present three
innovative techniques based on phoneme-to-phoneme (P2P), text-to-speech (T2S),
and speech-to-speech (S2S) conversion to generate correctly pronounced and
mispronounced synthetic speech. We show that these techniques not only improve
the accuracy of three machine learning models for detecting pronunciation
errors but also help establish a new state-of-the-art in the field. Earlier
studies have used simple speech generation techniques such as P2P conversion,
but only as an additional mechanism to improve the accuracy of pronunciation
error detection. We, on the other hand, consider speech generation to be the
first-class method of detecting pronunciation errors. The effectiveness of
these techniques is assessed in the tasks of detecting pronunciation and
lexical stress errors. Non-native English speech corpora of German, Italian,
and Polish speakers are used in the evaluations. The best proposed S2S
technique improves the accuracy of detecting pronunciation errors in AUC metric
by 41\% from 0.528 to 0.749 compared to the state-of-the-art approach.
- Abstract(参考訳): 研究コミュニティは、非ネイティブ音声におけるコンピュータ支援発音訓練(CAPT)法を長年研究してきた。
研究者はベイジアンネットワークやディープラーニング手法などの様々なモデルアーキテクチャの研究や、音声信号の異なる表現の分析に注力した。
近年の進歩にもかかわらず、既存のCAPT法では高い精度で発音誤りを検出できない(40 %-80 %リコールで60 %の精度しか検出できない)。
重要な問題の1つは、発音誤り検出モデルの信頼性トレーニングに必要な誤発音音声の可用性が低いことである。
非ネイティブ音声を模倣し、任意の量の訓練データを生成する生成モデルがあれば、発音誤りを検出する作業はずっと簡単になります。
本稿では,音素対音素(p2p),テキスト対音声(t2s),音声対音声変換(s2s)に基づく3つの革新的手法を提案する。
これらの手法は、発音誤り検出のための3つの機械学習モデルの精度を向上させるだけでなく、この分野における新たな最先端の確立にも寄与する。
従来の研究では、P2P変換のような単純な音声生成技術を使用していたが、発音誤り検出の精度を向上させるための追加のメカニズムとしてのみ利用されていた。
一方,音声生成は発音誤りを検出する第1級手法であると考えられる。
これらの手法の有効性は、発音および語彙的ストレスエラーを検出するタスクにおいて評価される。
ドイツ語、イタリア語、ポーランド語話者の非ネイティブ英語コーパスが評価に用いられる。
最適なS2S手法は、最先端手法と比較して、AUCメトリックの発音誤りを0.528から0.749まで41倍の精度で検出する。
関連論文リスト
- Phonological Level wav2vec2-based Mispronunciation Detection and
Diagnosis Method [11.069975459609829]
音声特徴量検出に基づく低レベルの誤認識検出と診断(MDD)手法を提案する。
提案手法は,母国語からの英語学習者から収集したL2音声コーパスに適用した。
論文 参考訳(メタデータ) (2023-11-13T02:41:41Z) - Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文 参考訳(メタデータ) (2023-07-13T21:06:23Z) - DTW-SiameseNet: Dynamic Time Warped Siamese Network for Mispronunciation
Detection and Correction [1.8322859214908722]
本稿では,TTS誤発音検出と修正のタスクのための,高精度でPDA対応の発音学習フレームワークを提案する。
また,三重項損失を伴う動的時間ワープ(DTW)のためのメトリクス学習を用いたDTW-SiameseNetという,新しい誤発音検出モデルを提案する。
人間の評価から,提案手法は音素ベースや音声ベースラインに比べて平均6%の発音精度が向上することが示された。
論文 参考訳(メタデータ) (2023-03-01T01:53:11Z) - Multilingual Zero Resource Speech Recognition Base on Self-Supervise
Pre-Trained Acoustic Models [14.887781621924255]
本稿では,事前学習モデルの使用を単語レベルのゼロリソース音声認識に拡張するための最初の試みである。
IPA音素の書き起こしで事前訓練されたモデルを微調整し、余分なテキストで訓練された言語モデルで復号する。
Wav2vec 2.0とHuBERTモデルの実験により、この手法は一部の言語で単語誤り率を20%以下に抑えることができることが示された。
論文 参考訳(メタデータ) (2022-10-13T12:11:18Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Weakly-supervised word-level pronunciation error detection in non-native
English speech [14.430965595136149]
非ネイティブ(L2)英語音声における単語レベルの誤発音検出のための弱教師付きモデル
音素的に書き起こされたL2音声は不要であり、誤発音した単語のみをマークする必要がある。
本研究では,L2ポーランド語話者のGUTアイルコーパスでは30%,L2ドイツ語話者とイタリア語話者のアイルコーパスでは21.5%の精度でAUCメトリックの単語レベルの発音誤りを検出する精度を向上させる。
論文 参考訳(メタデータ) (2021-06-07T10:31:53Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Mispronunciation Detection in Non-native (L2) English with Uncertainty
Modeling [13.451106880540326]
言語学習における誤用の自動検出への一般的なアプローチは、生徒が発する音素を認識し、母語話者の期待される発音と比較することである。
この問題を克服するための新しいアプローチを2つの原則に基づいて提案する。
本研究では,ドイツ語,イタリア語,ポーランド語話者の非母語(L2)話者の発話モデルの評価を行い,誤認識の検出精度を最大18%向上することを示した。
論文 参考訳(メタデータ) (2021-01-16T08:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。