論文の概要: Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition
- arxiv url: http://arxiv.org/abs/2201.05554v1
- Date: Fri, 14 Jan 2022 16:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 15:36:02.981570
- Title: Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition
- Title(参考訳): 障害音声の評価・認識のための分光時間深部特徴
- Authors: Mengzhe Geng, Shansong Liu, Jianwei Yu, Xurong Xie, Shoukang Hu, Zi
Ye, Zengrui Jin, Xunying Liu, Helen Meng
- Abstract要約: 音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
- 参考スコア(独自算出の注目度): 65.25325641528701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic recognition of disordered speech remains a highly challenging task
to date. Sources of variability commonly found in normal speech including
accent, age or gender, when further compounded with the underlying causes of
speech impairment and varying severity levels, create large diversity among
speakers. To this end, speaker adaptation techniques play a vital role in
current speech recognition systems. Motivated by the spectro-temporal level
differences between disordered and normal speech that systematically manifest
in articulatory imprecision, decreased volume and clarity, slower speaking
rates and increased dysfluencies, novel spectro-temporal subspace basis
embedding deep features derived by SVD decomposition of speech spectrum are
proposed to facilitate both accurate speech intelligibility assessment and
auxiliary feature based speaker adaptation of state-of-the-art hybrid DNN and
end-to-end disordered speech recognition systems. Experiments conducted on the
UASpeech corpus suggest the proposed spectro-temporal deep feature adapted
systems consistently outperformed baseline i-Vector adaptation by up to 2.63%
absolute (8.6% relative) reduction in word error rate (WER) with or without
data augmentation. Learning hidden unit contribution (LHUC) based speaker
adaptation was further applied. The final speaker adapted system using the
proposed spectral basis embedding features gave an overall WER of 25.6% on the
UASpeech test set of 16 dysarthric speakers
- Abstract(参考訳): 不規則な音声の自動認識は、現在まで非常に困難な課題である。
アクセント、年齢、性別など通常の音声で見られる可変性の源泉は、発声障害の根本原因や重度レベルの違いによってさらに複雑化され、話者間で大きな多様性が生じる。
この目的のために、現在の音声認識システムでは話者適応技術が重要な役割を果たす。
Motivated by the spectro-temporal level differences between disordered and normal speech that systematically manifest in articulatory imprecision, decreased volume and clarity, slower speaking rates and increased dysfluencies, novel spectro-temporal subspace basis embedding deep features derived by SVD decomposition of speech spectrum are proposed to facilitate both accurate speech intelligibility assessment and auxiliary feature based speaker adaptation of state-of-the-art hybrid DNN and end-to-end disordered speech recognition systems.
UASpeechコーパスで実施された実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大2.63%(相対8.6%)削減することで、ベースラインi-Vector適応を一貫して上回った。
隠れ単位寄与度(LHUC)に基づく話者適応の学習をさらに適用した。
提案したスペクトルベース埋め込み機能を用いた最終話者適応システムにより,16話者のUASpeechテストセットにおけるWER全体の25.6%が得られた。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Use of Speech Impairment Severity for Dysarthric Speech Recognition [37.93801885333925]
本稿では, 難易度と話者識別性を両立させる新しい手法を提案する。
UASpeechの実験では、最先端のハイブリッドDNN、E2E Conformer、事前訓練されたWav2vec 2.0 ASRシステムに音声障害の重大度を組み込むことが提案されている。
論文 参考訳(メタデータ) (2023-05-18T02:42:59Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。