論文の概要: Enhancing GOP in CTC-Based Mispronunciation Detection with Phonological Knowledge
- arxiv url: http://arxiv.org/abs/2506.02080v1
- Date: Mon, 02 Jun 2025 09:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.90193
- Title: Enhancing GOP in CTC-Based Mispronunciation Detection with Phonological Knowledge
- Title(参考訳): 音韻知識を用いたCTCによる誤認識検出におけるGOPの強化
- Authors: Aditya Kamlesh Parikh, Cristian Tejedor-Garcia, Catia Cucchiarini, Helmer Strik,
- Abstract要約: 本稿では,音素クラスタと一般的な学習者誤りに基づく音素置換を制限したアライメントフリーGOPを提案する。
子どもと成人の音声を含む2つのL2英語音声データセット、My Pronunciation Coach (MPC) とSpeechOcean762についてGOPを評価した。
- 参考スコア(独自算出の注目度): 10.137389745562512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-Assisted Pronunciation Training (CAPT) systems employ automatic measures of pronunciation quality, such as the goodness of pronunciation (GOP) metric. GOP relies on forced alignments, which are prone to labeling and segmentation errors due to acoustic variability. While alignment-free methods address these challenges, they are computationally expensive and scale poorly with phoneme sequence length and inventory size. To enhance efficiency, we introduce a substitution-aware alignment-free GOP that restricts phoneme substitutions based on phoneme clusters and common learner errors. We evaluated our GOP on two L2 English speech datasets, one with child speech, My Pronunciation Coach (MPC), and SpeechOcean762, which includes child and adult speech. We compared RPS (restricted phoneme substitutions) and UPS (unrestricted phoneme substitutions) setups within alignment-free methods, which outperformed the baseline. We discuss our results and outline avenues for future research.
- Abstract(参考訳): CAPT(Computer-Assisted Pronunciation Training)システムでは、発音の良さ(GOP)メートル法などの発音品質の自動測定が採用されている。
GOPは強制的なアライメントに依存しており、音響的変動によるラベリングやセグメンテーションの誤差に起因している。
アライメントフリーな手法はこれらの課題に対処するが、計算コストが高く、音素列の長さと在庫規模に乏しい。
効率を向上させるために,音素クラスタと一般的な学習者エラーに基づく音素置換を制限する置換対応アライメントフリーGOPを導入する。
子どもと成人の音声を含む2つのL2英語音声データセット、My Pronunciation Coach(MPC)、SpeechOcean762についてGOPを評価した。
RPS(制限音素置換)とUPS(制限音素置換)をアライメントフリー手法で比較したところ,ベースラインよりも優れていた。
本研究の成果と今後の研究への道筋について概説する。
関連論文リスト
- Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing [17.333427709985376]
本稿では,自動テキスト発音相関(ATPC)という,発音相関を自動的に取得するデータ駆動手法を提案する。
マンダリンの実験結果から,ATPCはコンテキストバイアス下でのE2E-ASR性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-01-01T11:10:46Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings [12.669655363646257]
Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
音声録音から発音例を学習し,G2P変換課題を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T13:25:38Z) - DTW-SiameseNet: Dynamic Time Warped Siamese Network for Mispronunciation
Detection and Correction [1.8322859214908722]
本稿では,TTS誤発音検出と修正のタスクのための,高精度でPDA対応の発音学習フレームワークを提案する。
また,三重項損失を伴う動的時間ワープ(DTW)のためのメトリクス学習を用いたDTW-SiameseNetという,新しい誤発音検出モデルを提案する。
人間の評価から,提案手法は音素ベースや音声ベースラインに比べて平均6%の発音精度が向上することが示された。
論文 参考訳(メタデータ) (2023-03-01T01:53:11Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Improving pronunciation assessment via ordinal regression with anchored
reference samples [13.504454405194855]
平均GOP(aGOP)と混乱GOP(cGOP)の2つの統計的特徴を提案する。
従来のGOP法を用いて, ピアソン相関係数の26.9%を相対的に改善した。
論文 参考訳(メタデータ) (2020-10-26T04:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。