論文の概要: Segmentation-free Goodness of Pronunciation
- arxiv url: http://arxiv.org/abs/2507.16838v2
- Date: Thu, 24 Jul 2025 02:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 13:02:36.868241
- Title: Segmentation-free Goodness of Pronunciation
- Title(参考訳): 発音のセグメンテーションのない良さ
- Authors: Xinwei Cao, Zijian Fan, Torbjørn Svendsen, Giampiero Salvi,
- Abstract要約: Mispronunciation Detection and diagnosis (MDD) は、現代のコンピュータ支援言語学習(CALL)システムにおいて重要な部分である。
ほとんどのシステムは発音の良さ(GOP)の形式に基づいている。
本研究ではまず,MCD に CTC 学習型 ASR モデルを適用可能な自己アライメント GOP (GOP-SA) を提案する。
次に、ターゲット音素のすべてのアライメントを考慮に入れた、より一般的なアライメントのない手法を定義する(GOP-AF)。
- 参考スコア(独自算出の注目度): 8.859671910259244
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Mispronunciation detection and diagnosis (MDD) is a significant part in modern computer aided language learning (CALL) systems. Within MDD, phoneme-level pronunciation assessment is key to helping L2 learners improve their pronunciation. However, most systems are based on a form of goodness of pronunciation (GOP) which requires pre-segmentation of speech into phonetic units. This limits the accuracy of these methods and the possibility to use modern CTC-based acoustic models for their evaluation. In this study, we first propose self-alignment GOP (GOP-SA) that enables the use of CTC-trained ASR models for MDD. Next, we define a more general alignment-free method that takes all possible alignments of the target phoneme into account (GOP-AF). We give a theoretical account of our definition of GOP-AF, an implementation that solves potential numerical issues as well as a proper normalization which makes the method applicable with acoustic models with different peakiness over time. We provide extensive experimental results on the CMU Kids and Speechocean762 datasets comparing the different definitions of our methods, estimating the dependency of GOP-AF on the peakiness of the acoustic models and on the amount of context around the target phoneme. Finally, we compare our methods with recent studies over the Speechocean762 data showing that the feature vectors derived from the proposed method achieve state-of-the-art results on phoneme-level pronunciation assessment.
- Abstract(参考訳): Mispronunciation Detection and diagnosis (MDD) は、現代のコンピュータ支援言語学習(CALL)システムにおいて重要な部分である。
MDDでは,L2学習者の発音改善を支援するために,音素レベルの発音評価が重要である。
しかし、ほとんどのシステムは発音の良さ(GOP)の形式に基づいている。
これにより、これらの手法の精度が制限され、その評価に近代的なCTCベースの音響モデルを使用することが可能である。
本研究ではまず,MCD に CTC 学習型 ASR モデルを適用可能な自己アライメント GOP (GOP-SA) を提案する。
次に、ターゲット音素のすべてのアライメントを考慮に入れた、より一般的なアライメントのない手法(GOP-AF)を定義する。
GOP-AFは、潜在的な数値問題を解く実装であり、時間とともにピーク性が異なる音響モデルに適用できる適切な正規化である。
CMU Kids と Speechocean762 のデータセットを用いて,提案手法の異なる定義を比較し,GOP-AF の音響モデルのピーク性および対象音素の周囲の文脈量に対する依存性を推定した。
最後に,提案手法から抽出した特徴ベクトルが音素レベルの発音評価の最先端結果が得られることを示す,Speechocean762データに関する最近の研究との比較を行った。
関連論文リスト
- $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Towards Efficient and Multifaceted Computer-assisted Pronunciation Training Leveraging Hierarchical Selective State Space Model and Decoupled Cross-entropy Loss [5.101375571703936]
HMambaは、APAとMDDタスクをシームレスに並列に統合する新しいCAPTアプローチである。
speechocean762ベンチマークデータセットの総合的な実験結果の集合は、我々のAPAに対するアプローチの有効性を示す。
提案手法は,F1スコア63.85%を達成し,強力なベースラインよりもMDD性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-11T14:17:29Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Phonological Level wav2vec2-based Mispronunciation Detection and
Diagnosis Method [11.069975459609829]
音声特徴量検出に基づく低レベルの誤認識検出と診断(MDD)手法を提案する。
提案手法は,母国語からの英語学習者から収集したL2音声コーパスに適用した。
論文 参考訳(メタデータ) (2023-11-13T02:41:41Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - A transfer learning based approach for pronunciation scoring [7.98890440106366]
携帯電話レベルの発音は、人間のアノテータよりもはるかにパフォーマンスが低い、難しい作業である。
標準システムは、ネイティブデータのみを持つ自動音声認識(ASR)のために訓練されたモデルを使用して、フレーズで各電話機にスコアを生成する。
本稿では、ASRで訓練されたモデルを活用し、発音評価のタスクに適応するトランスファー学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-01T14:37:06Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z) - Phoneme Boundary Detection using Learnable Segmental Features [31.203969460341817]
音素境界検出は様々な音声処理アプリケーションにおいて重要な第一歩となる。
本稿では,音素境界検出タスクのセグメント表現を学習するために,パラメータ化された構造的損失関数と結合したニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-11T14:03:08Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。