論文の概要: Speech Intelligibility Assessment of Dysarthric Speech by using Goodness
of Pronunciation with Uncertainty Quantification
- arxiv url: http://arxiv.org/abs/2305.18392v1
- Date: Sun, 28 May 2023 11:48:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 21:42:39.315410
- Title: Speech Intelligibility Assessment of Dysarthric Speech by using Goodness
of Pronunciation with Uncertainty Quantification
- Title(参考訳): 不確かさ量化を用いた発音の良さを用いた構音障害児の音声明瞭度評価
- Authors: Eun Jung Yeo, Kwanghee Choi, Sunhee Kim, Minhwa Chung
- Abstract要約: 本稿では,不確実性定量化(UQ)を利用した変形性音声の自動明瞭度評価のための改良されたGoP(Goodness of Pronunciation)を提案する。
この問題を軽減するため, 1) 音素予測(エントロピー, マージン, マージン, マージン) の正規化, 2) スコアリング関数の変更によるGoP上でのUQ手法を用いた。
その結果、事前正規化マックスロジットのGoPは、英語のベースラインのGoPと比較して5.66%、3.91%、23.65%増加し、最高のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 4.947423926765435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes an improved Goodness of Pronunciation (GoP) that utilizes
Uncertainty Quantification (UQ) for automatic speech intelligibility assessment
for dysarthric speech. Current GoP methods rely heavily on neural
network-driven overconfident predictions, which is unsuitable for assessing
dysarthric speech due to its significant acoustic differences from healthy
speech. To alleviate the problem, UQ techniques were used on GoP by 1)
normalizing the phoneme prediction (entropy, margin, maxlogit, logit-margin)
and 2) modifying the scoring function (scaling, prior normalization). As a
result, prior-normalized maxlogit GoP achieves the best performance, with a
relative increase of 5.66%, 3.91%, and 23.65% compared to the baseline GoP for
English, Korean, and Tamil, respectively. Furthermore, phoneme analysis is
conducted to identify which phoneme scores significantly correlate with
intelligibility scores in each language.
- Abstract(参考訳): 本稿では,不確実性定量化(UQ)を利用した変形性音声の自動明瞭度評価のための改良されたGoP(Goodness of Pronunciation)を提案する。
現在のgop法は、ニューラルネットワークによる自信過剰な予測に大きく依存している。
この問題を軽減するため、GoPではUQテクニックが使用された。
1)音素予測の正規化(エントロピー,マージン,maxlogit,logit-margin)
2)スコア関数の変更(スケーリング,事前正規化)。
その結果、事前正規化されたmaxlogit gopは、英語、韓国語、タミル語のベースラインgopと比較して、それぞれ5.66%、3.91%、23.65%という高いパフォーマンスを達成している。
さらに、音素分析を行い、どの音素スコアが各言語におけるインテリジェンススコアと大きく相関しているかを特定する。
関連論文リスト
- HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Influence of ASR and Language Model on Alzheimer's Disease Detection [2.4698886064068555]
画像から参加者の音声記述を転写するために,SotA ASRシステムを用いて分析する。
本研究では,ASRから仮説を復号化するための言語モデルが欠如していることから,単語の非標準列を補正する言語モデルの影響について検討する。
提案システムは、韻律と声質に基づく音響と、最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせる。
論文 参考訳(メタデータ) (2021-09-20T10:41:39Z) - Analysis and Tuning of a Voice Assistant System for Dysfluent Speech [7.233685721929227]
音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。
既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
論文 参考訳(メタデータ) (2021-06-18T20:58:34Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Improving pronunciation assessment via ordinal regression with anchored
reference samples [13.504454405194855]
平均GOP(aGOP)と混乱GOP(cGOP)の2つの統計的特徴を提案する。
従来のGOP法を用いて, ピアソン相関係数の26.9%を相対的に改善した。
論文 参考訳(メタデータ) (2020-10-26T04:53:17Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。