論文の概要: Use of Speech Impairment Severity for Dysarthric Speech Recognition
- arxiv url: http://arxiv.org/abs/2305.10659v1
- Date: Thu, 18 May 2023 02:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 17:21:08.025614
- Title: Use of Speech Impairment Severity for Dysarthric Speech Recognition
- Title(参考訳): 構音障害による構音障害の認識への応用
- Authors: Mengzhe Geng, Zengrui Jin, Tianzi Wang, Shujie Hu, Jiajun Deng, Mingyu
Cui, Guinan Li, Jianwei Yu, Xurong Xie, Xunying Liu
- Abstract要約: 本稿では, 難易度と話者識別性を両立させる新しい手法を提案する。
UASpeechの実験では、最先端のハイブリッドDNN、E2E Conformer、事前訓練されたWav2vec 2.0 ASRシステムに音声障害の重大度を組み込むことが提案されている。
- 参考スコア(独自算出の注目度): 37.93801885333925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge in dysarthric speech recognition is the speaker-level
diversity attributed to both speaker-identity associated factors such as
gender, and speech impairment severity. Most prior researches on addressing
this issue focused on using speaker-identity only. To this end, this paper
proposes a novel set of techniques to use both severity and speaker-identity in
dysarthric speech recognition: a) multitask training incorporating severity
prediction error; b) speaker-severity aware auxiliary feature adaptation; and
c) structured LHUC transforms separately conditioned on speaker-identity and
severity. Experiments conducted on UASpeech suggest incorporating additional
speech impairment severity into state-of-the-art hybrid DNN, E2E Conformer and
pre-trained Wav2vec 2.0 ASR systems produced statistically significant WER
reductions up to 4.78% (14.03% relative). Using the best system the lowest
published WER of 17.82% (51.25% on very low intelligibility) was obtained on
UASpeech.
- Abstract(参考訳): dysorthric speech recognitionにおける重要な課題は、話者レベルの多様性が、性別や言語障害などの話者同一性に関連する要因によって引き起こされるものである。
この問題に対処する以前の研究は、話者識別のみの使用に焦点を当てていた。
そこで本研究では,重大度と話者識別の両立を両立させる新しい手法を提案する。
a)重大性予測誤差を取り入れたマルチタスクトレーニング
b) 話者性を考慮した補助的特徴適応
c) 構造的LHUC変換は、話者同一性及び重度を別々に条件付ける。
UASpeechでの実験では、最先端のハイブリッドDNN、E2E Conformer、および事前訓練されたWav2vec 2.0 ASRシステムに追加の音声障害の重症度を組み込むことで、統計的に有意なWER削減が4.78%(14.03%)まで達成された。
最も優れたシステムを用いて、UASpeech上で17.82% (51.25%) の最も低い WER が得られた。
関連論文リスト
- On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。