論文の概要: On-the-fly Feature Based Speaker Adaptation for Dysarthric and Elderly
Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.14593v1
- Date: Mon, 28 Mar 2022 09:12:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 13:37:12.052935
- Title: On-the-fly Feature Based Speaker Adaptation for Dysarthric and Elderly
Speech Recognition
- Title(参考訳): 変形性および高齢者の音声認識におけるオンザフライ特徴に基づく話者適応
- Authors: Mengzhe Geng, Xurong Xie, Rongfeng Su, Jianwei Yu, Zi Ye, Xunying Liu,
Helen Meng
- Abstract要約: 話者レベルの不均一性は、通常音声に見られるアクセントや性別に起因するものであり、話者間で大きな多様性を生み出す。
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たす。
本稿では,オンザフライ・ラピッド・スピーカー・アダプティブ・アプローチに基づく2種類の特徴量について検討する。
- 参考スコア(独自算出の注目度): 59.585669933516996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic recognition of dysarthric and elderly speech highly challenging
tasks to date. Speaker-level heterogeneity attributed to accent or gender
commonly found in normal speech, when aggregated with age and speech impairment
severity, create large diversity among speakers. Speaker adaptation techniques
play a crucial role in personalization of ASR systems for such users. Their
mobility issues limit the amount of speaker-level data available for model
based adaptation. To this end, this paper investigates two novel forms of
feature based on-the-fly rapid speaker adaptation approaches. The first is
based on speaker-level variance regularized spectral basis embedding (SBEVR)
features, while the other uses on-the-fly learning hidden unit contributions
(LHUC) transforms conditioned on speaker-level spectral features. Experiments
conducted on the UASpeech dysarthric and DimentiaBank Pitt elderly speech
datasets suggest the proposed SBEVR features based adaptation statistically
significantly outperform both the baseline on-the-fly i-Vector adapted hybrid
TDNN/DNN systems by up to 2.48% absolute (7.92% relative) reduction in word
error rate (WER), and offline batch mode model based LHUC adaptation using all
speaker-level data by 0.78% absolute (2.41% relative) in WER reduction.
- Abstract(参考訳): 歩行障害と高齢者音声の自動認識 : 難易度の高い課題
話者レベルの不均一性は、通常音声に見られるアクセントや性別に起因し、年齢や言語障害の重大度に集約された場合、話者間で大きな多様性を生み出す。
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たす。
彼らのモビリティ問題は、モデルベースの適応に利用可能な話者レベルデータの量を制限する。
そこで本研究では,高速話者適応法に基づく2種類の特徴量について検討する。
1つは、話者レベルの分散正規化スペクトルベース埋め込み(SBEVR)機能に基づいており、もう1つは、話者レベルのスペクトル特徴に基づいて調整されたオンザフライ学習隠れユニットコントリビューション(LHUC)変換を使用する。
uaspeech dysarthric and dimentiabank pitt elderly speech datasetで行った実験によると、sbevrの特徴に基づく適応は、平均的なオンザフライi-vectorのハイブリッドtdnn/dnnシステムを最大2.48%の絶対 (7.92%の相対的) の単語誤り率 (wer) の低減と、全話者レベルデータを用いたオフラインバッチモードモデルに基づくlhuc適応で0.78%の絶対 (2.41%相対的) に上回っている。
関連論文リスト
- Use of Speech Impairment Severity for Dysarthric Speech Recognition [37.93801885333925]
本稿では, 難易度と話者識別性を両立させる新しい手法を提案する。
UASpeechの実験では、最先端のハイブリッドDNN、E2E Conformer、事前訓練されたWav2vec 2.0 ASRシステムに音声障害の重大度を組み込むことが提案されている。
論文 参考訳(メタデータ) (2023-05-18T02:42:59Z) - Exploring Self-supervised Pre-trained ASR Models For Dysarthric and
Elderly Speech Recognition [57.31233839489528]
本稿では,TDNN と Conformer ASR システムにドメイン適応型SSL事前訓練モデルを統合する手法について検討する。
論文 参考訳(メタデータ) (2023-02-28T13:39:17Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Personalized Adversarial Data Augmentation for Dysarthric and Elderly
Speech Recognition [30.885165674448352]
本稿では,高齢者および変形性音声認識のための新しい話者依存型(GAN)に基づくデータ拡張手法を提案する。
GANベースのデータ拡張アプローチは、ベースライン速度摂動法を最大0.91%、絶対値3.0%で一貫して上回っている。
LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。
論文 参考訳(メタデータ) (2022-05-13T04:29:49Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。