論文の概要: Evaluating Logit-Based GOP Scores for Mispronunciation Detection
- arxiv url: http://arxiv.org/abs/2506.12067v1
- Date: Mon, 02 Jun 2025 09:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.618651
- Title: Evaluating Logit-Based GOP Scores for Mispronunciation Detection
- Title(参考訳): 誤認識検出のためのログベースGOPスコアの評価
- Authors: Aditya Kamlesh Parikh, Cristian Tejedor-Garcia, Catia Cucchiarini, Helmer Strik,
- Abstract要約: 発音評価は、伝統的にソフトマックスに基づく後部確率から派生した発音の良さ(GOP)スコアに依存する。
本研究では,ロジットに基づく GOP スコアと確率に基づく GOP スコアを比較し,誤発音検出を行う。
- 参考スコア(独自算出の注目度): 10.137389745562512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pronunciation assessment relies on goodness of pronunciation (GOP) scores, traditionally derived from softmax-based posterior probabilities. However, posterior probabilities may suffer from overconfidence and poor phoneme separation, limiting their effectiveness. This study compares logit-based GOP scores with probability-based GOP scores for mispronunciation detection. We conducted our experiment on two L2 English speech datasets spoken by Dutch and Mandarin speakers, assessing classification performance and correlation with human ratings. Logit-based methods outperform probability-based GOP in classification, but their effectiveness depends on dataset characteristics. The maximum logit GOP shows the strongest alignment with human perception, while a combination of different GOP scores balances probability and logit features. The findings suggest that hybrid GOP methods incorporating uncertainty modeling and phoneme-specific weighting improve pronunciation assessment.
- Abstract(参考訳): 発音評価は、伝統的にソフトマックスに基づく後部確率から派生した発音の良さ(GOP)スコアに依存する。
しかし、後部確率は、過剰な自信と音素分離の欠如に悩まされ、その効果が制限される。
本研究では,ロジットに基づく GOP スコアと確率に基づく GOP スコアを比較し,誤発音検出を行う。
オランダ語話者とマンダリン語話者による2つのL2英語音声データセットについて実験を行い、分類性能と人間の評価との相関を評価した。
ログベースの手法は、確率ベースのGOPを分類において上回るが、その効果はデータセットの特性に依存する。
最大ロジットGOPは人間の知覚と最強の一致を示し、異なるGOPスコアの組み合わせは確率とロジットの特徴のバランスをとる。
その結果,不確実性モデリングと音素特異的重み付けを併用したハイブリッドGOP手法が発音評価を改善することが示唆された。
関連論文リスト
- Enhancing GOP in CTC-Based Mispronunciation Detection with Phonological Knowledge [10.137389745562512]
本稿では,音素クラスタと一般的な学習者誤りに基づく音素置換を制限したアライメントフリーGOPを提案する。
子どもと成人の音声を含む2つのL2英語音声データセット、My Pronunciation Coach (MPC) とSpeechOcean762についてGOPを評価した。
論文 参考訳(メタデータ) (2025-06-02T09:45:29Z) - Pairwise Evaluation of Accent Similarity in Speech Synthesis [11.513055793492418]
アクセント類似度に対する主観的評価法と客観的評価法の両方を強化することを目的としている。
我々は、より少ないリスナーと低コストで高い統計的重要性を実現するコンポーネントを追加することで、XABリスニングテストの洗練を図る。
母音フォルマントと音韻後生音との距離に基づいて発音関連指標を用いてアクセント生成を評価する。
論文 参考訳(メタデータ) (2025-05-20T14:23:50Z) - Language Generation with Strictly Proper Scoring Rules [70.340673452404]
本稿では,非局所的なスコアリングルールを用いた言語モデリングが可能な,スコアリングルールを言語生成に適用するための戦略を提案する。
対数スコアの代替として、ブライアスコアと球面スコアの2つの古典的厳密なスコアルールを用いて言語生成モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-29T09:09:00Z) - An Evaluation of Estimative Uncertainty in Large Language Models [3.04503073434724]
推定の不確実性は長い間、CIAなどの諜報機関を含む研究領域であった。
本研究は,一般用大言語モデル(LLM)における推定の不確かさを,人間と相互に比較した。
GPT-3.5 や GPT-4 のような LLM は人間の推定値と一致している。
論文 参考訳(メタデータ) (2024-05-24T03:39:31Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Speech Intelligibility Assessment of Dysarthric Speech by using Goodness
of Pronunciation with Uncertainty Quantification [4.947423926765435]
本稿では,不確実性定量化(UQ)を利用した変形性音声の自動明瞭度評価のための改良されたGoP(Goodness of Pronunciation)を提案する。
この問題を軽減するため, 1) 音素予測(エントロピー, マージン, マージン, マージン) の正規化, 2) スコアリング関数の変更によるGoP上でのUQ手法を用いた。
その結果、事前正規化マックスロジットのGoPは、英語のベースラインのGoPと比較して5.66%、3.91%、23.65%増加し、最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-28T11:48:36Z) - Language Model Classifier Aligns Better with Physician Word Sensitivity
than XGBoost on Readmission Prediction [86.15787587540132]
語彙レベルでモデルの振る舞いを精査する尺度である感度スコアを導入する。
本実験は,感度スコアのランク相関に基づいて,臨床医と分類医の意思決定論理を比較した。
論文 参考訳(メタデータ) (2022-11-13T23:59:11Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z) - Improving pronunciation assessment via ordinal regression with anchored
reference samples [13.504454405194855]
平均GOP(aGOP)と混乱GOP(cGOP)の2つの統計的特徴を提案する。
従来のGOP法を用いて, ピアソン相関係数の26.9%を相対的に改善した。
論文 参考訳(メタデータ) (2020-10-26T04:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。