論文の概要: A transfer learning based approach for pronunciation scoring
- arxiv url: http://arxiv.org/abs/2111.00976v1
- Date: Mon, 1 Nov 2021 14:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 20:08:05.740413
- Title: A transfer learning based approach for pronunciation scoring
- Title(参考訳): 転置学習に基づく発音スコアリング手法
- Authors: Marcelo Sancinetti, Jazmin Vidal, Cyntia Bonomi, Luciana Ferrer
- Abstract要約: 携帯電話レベルの発音は、人間のアノテータよりもはるかにパフォーマンスが低い、難しい作業である。
標準システムは、ネイティブデータのみを持つ自動音声認識(ASR)のために訓練されたモデルを使用して、フレーズで各電話機にスコアを生成する。
本稿では、ASRで訓練されたモデルを活用し、発音評価のタスクに適応するトランスファー学習に基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 12.680163410446344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phone-level pronunciation scoring is a challenging task, with performance far
from that of human annotators. Standard systems generate a score for each phone
in a phrase using models trained for automatic speech recognition (ASR) with
native data only. Better performance has been shown when using systems that are
trained specifically for the task using non-native data. Yet, such systems face
the challenge that datasets labelled for this task are scarce and usually
small. In this paper, we present a transfer learning-based approach that
leverages a model trained for ASR, adapting it for the task of pronunciation
scoring. We analyze the effect of several design choices and compare the
performance with a state-of-the-art goodness of pronunciation (GOP) system. Our
final system is 20% better than the GOP system on EpaDB, a database for
pronunciation scoring research, for a cost function that prioritizes low rates
of unnecessary corrections.
- Abstract(参考訳): 音声レベルの発音のスコア付けは難しい課題であり、人間の注釈装置とは程遠いパフォーマンスである。
標準システムは、ネイティブデータのみを持つ自動音声認識(asr)用に訓練されたモデルを使用して、フレーズ内の各電話機のスコアを生成する。
非ネイティブデータを使用してタスクのために特別にトレーニングされたシステムを使用する場合、パフォーマンスが向上している。
しかし、このようなシステムは、このタスクのためにラベル付けされたデータセットが少なく、通常は小さいという課題に直面している。
本稿では,asrに訓練されたモデルを活用して,発音スコアリングのタスクに適応するトランスファー学習に基づくアプローチを提案する。
本稿では,いくつかの設計選択の効果を分析し,その性能をGOPシステムと比較する。
最終システムは,不必要な修正率の低減を優先するコスト関数として,評価研究のためのデータベースであるEpaDBのGOPシステムよりも20%優れている。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - Mispronunciation detection using self-supervised speech representations [10.010024759851142]
本稿では,第2言語学習者の誤発音検出作業におけるSSLモデルの利用について検討する。
そこで本研究では,1)母国英語データを用いた音声認識モデルの訓練,2)非母国英語データを用いた目標タスクのためのモデルを直接訓練する,という2つのダウンストリームアプローチを比較した。
論文 参考訳(メタデータ) (2023-07-30T21:20:58Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。