論文の概要: Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition
- arxiv url: http://arxiv.org/abs/2202.10290v1
- Date: Mon, 21 Feb 2022 15:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 08:47:35.341353
- Title: Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition
- Title(参考訳): スペクトル・時間的深部特徴を用いた話者適応による構音・高齢者音声認識
- Authors: Mengzhe Geng, Xurong Xie, Zi Ye, Tianzi Wang, Guinan Li, Shujie Hu,
Xunying Liu, Helen Meng
- Abstract要約: 話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
- 参考スコア(独自算出の注目度): 48.33873602050463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the rapid progress of automatic speech recognition (ASR) technologies
targeting normal speech in recent decades, accurate recognition of dysarthric
and elderly speech remains highly challenging tasks to date. Sources of
heterogeneity commonly found in normal speech including accent or gender, when
further compounded with the variability over age and speech pathology severity
level, create large diversity among speakers. To this end, speaker adaptation
techniques play a key role in personalization of ASR systems for such users.
Motivated by the spectro-temporal level differences between dysarthric, elderly
and normal speech that systematically manifest in articulatory imprecision,
decreased volume and clarity, slower speaking rates and increased dysfluencies,
novel spectrotemporal subspace basis deep embedding features derived using SVD
speech spectrum decomposition are proposed in this paper to facilitate
auxiliary feature based speaker adaptation of state-of-the-art hybrid DNN/TDNN
and end-to-end Conformer speech recognition systems. Experiments were conducted
on four tasks: the English UASpeech and TORGO dysarthric speech corpora; the
English DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speech datasets.
The proposed spectro-temporal deep feature adapted systems outperformed
baseline i-Vector and xVector adaptation by up to 2.63% absolute (8.63%
relative) reduction in word error rate (WER). Consistent performance
improvements were retained after model based speaker adaptation using learning
hidden unit contributions (LHUC) was further applied. The best speaker adapted
system using the proposed spectral basis embedding features produced the lowest
published WER of 25.05% on the UASpeech test set of 16 dysarthric speakers.
- Abstract(参考訳): 近年, 正常な音声を対象とした音声認識(asr)技術が急速に進歩しているにもかかわらず, 義足と高齢者の正確な認識はいまだに難しい課題である。
アクセントやジェンダーを含む通常の音声で見られる異種性の源は、年齢による変化や言語病理の重症度が重なり、話者間で大きな多様性が生じる。
この目的のために、話者適応技術は、そのようなユーザのためのasrシステムのパーソナライズにおいて重要な役割を果たす。
Motivated by the spectro-temporal level differences between dysarthric, elderly and normal speech that systematically manifest in articulatory imprecision, decreased volume and clarity, slower speaking rates and increased dysfluencies, novel spectrotemporal subspace basis deep embedding features derived using SVD speech spectrum decomposition are proposed in this paper to facilitate auxiliary feature based speaker adaptation of state-of-the-art hybrid DNN/TDNN and end-to-end Conformer speech recognition systems.
英語uaspeechとtorgo dysarthric speech corporaの4つのタスクについて実験を行った。
提案した分光時相深部特徴適応システムは,単語誤り率(WER)を最大2.63%(相対8.63%)まで低減し,ベースライン i-Vector および xVector 適応に優れていた。
learning hidden unit contributions (lhuc) を用いたモデルベースの話者適応がさらに適用され、一貫したパフォーマンス改善が維持された。
提案するスペクトル基底埋め込み特徴を用いた最善の話者適応システムでは、16個の不定形話者のuaspeechテストセットにおいて最低25.05%であった。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Use of Speech Impairment Severity for Dysarthric Speech Recognition [37.93801885333925]
本稿では, 難易度と話者識別性を両立させる新しい手法を提案する。
UASpeechの実験では、最先端のハイブリッドDNN、E2E Conformer、事前訓練されたWav2vec 2.0 ASRシステムに音声障害の重大度を組み込むことが提案されている。
論文 参考訳(メタデータ) (2023-05-18T02:42:59Z) - Personalized Adversarial Data Augmentation for Dysarthric and Elderly
Speech Recognition [30.885165674448352]
本稿では,高齢者および変形性音声認識のための新しい話者依存型(GAN)に基づくデータ拡張手法を提案する。
GANベースのデータ拡張アプローチは、ベースライン速度摂動法を最大0.91%、絶対値3.0%で一貫して上回っている。
LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。
論文 参考訳(メタデータ) (2022-05-13T04:29:49Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。