論文の概要: Personalized Adversarial Data Augmentation for Dysarthric and Elderly
Speech Recognition
- arxiv url: http://arxiv.org/abs/2205.06445v2
- Date: Tue, 17 May 2022 01:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 11:05:25.010267
- Title: Personalized Adversarial Data Augmentation for Dysarthric and Elderly
Speech Recognition
- Title(参考訳): 構音障害と高齢者音声認識のためのパーソナライズされたadversarial data augmentation
- Authors: Zengrui Jin, Mengzhe Geng, Jiajun Deng, Tianzi Wang, Shujie Hu, Guinan
Li, Xunying Liu
- Abstract要約: 本稿では,高齢者および変形性音声認識のための新しい話者依存型(GAN)に基づくデータ拡張手法を提案する。
GANベースのデータ拡張アプローチは、ベースライン速度摂動法を最大0.91%、絶対値3.0%で一貫して上回っている。
LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。
- 参考スコア(独自算出の注目度): 30.885165674448352
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the rapid progress of automatic speech recognition (ASR) technologies
targeting normal speech, accurate recognition of dysarthric and elderly speech
remains highly challenging tasks to date. It is difficult to collect large
quantities of such data for ASR system development due to the mobility issues
often found among these users. To this end, data augmentation techniques play a
vital role. In contrast to existing data augmentation techniques only modifying
the speaking rate or overall shape of spectral contour, fine-grained
spectro-temporal differences between dysarthric, elderly and normal speech are
modelled using a novel set of speaker dependent (SD) generative adversarial
networks (GAN) based data augmentation approaches in this paper. These flexibly
allow both: a) temporal or speed perturbed normal speech spectra to be modified
and closer to those of an impaired speaker when parallel speech data is
available; and b) for non-parallel data, the SVD decomposed normal speech
spectral basis features to be transformed into those of a target elderly
speaker before being re-composed with the temporal bases to produce the
augmented data for state-of-the-art TDNN and Conformer ASR system training.
Experiments are conducted on four tasks: the English UASpeech and TORGO
dysarthric speech corpora; the English DementiaBank Pitt and Cantonese JCCOCC
MoCA elderly speech datasets. The proposed GAN based data augmentation
approaches consistently outperform the baseline speed perturbation method by up
to 0.91% and 3.0% absolute (9.61% and 6.4% relative) WER reduction on the TORGO
and DementiaBank data respectively. Consistent performance improvements are
retained after applying LHUC based speaker adaptation.
- Abstract(参考訳): 通常の音声を対象とする自動音声認識(ASR)技術の急速な進歩にもかかわらず、外科的・高齢者的音声の正確な認識はいまだに非常に難しい課題である。
これらのユーザの間で頻繁に見られるモビリティの問題から,ASRシステム開発のための大量のデータ収集は困難である。
この目的のために、データ拡張技術は重要な役割を果たす。
従来のスペクトル輪郭の発話速度や全体形状のみを変化させる既存のデータ拡張技術とは対照的に、新しい話者依存型(sd)生成逆ネットワーク(gan)に基づくデータ拡張アプローチを用いて、老年者および正常者間の精細な分光時間差をモデル化する。
これらは両方を柔軟に許容します
a) 平行音声データが利用可能である場合、時間的又は速度的に乱される正常音声スペクトルを、障害のある話者のそれに近いものに修正すること。
b)非並列データの場合,SVDは対象の高齢者話者の音声スペクトルベースの特徴を分解し,時間的ベースと再分解し,最先端のTDNNとコンフォーマーASRシステムトレーニングのための拡張データを生成する。
英語uaspeechとtorgo dysarthric speech corpora、英語認知症バンクpitとカントン語jccocc mocaの高齢者音声データセットの4つのタスクについて実験を行った。
提案したGANベースのデータ拡張アプローチは、TORGOとDementiaBankのデータに対するWER削減をそれぞれ0.91%と3.0%(9.61%と6.4%)まで改善する。
LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Hyper-parameter Adaptation of Conformer ASR Systems for Elderly and
Dysarthric Speech Recognition [64.9816313630768]
ファインチューニングは、多くの非高齢および健康な音声事前訓練モデルを利用するためにしばしば用いられる。
本稿では,Librispeech corpus 上で事前学習した Conformer ASR システムのハイパーパラメータ適応について検討する。
論文 参考訳(メタデータ) (2023-06-27T07:49:35Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。