論文の概要: On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.14593v3
- Date: Sun, 28 May 2023 13:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 04:28:15.721133
- Title: On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition
- Title(参考訳): 顎・高齢者の音声認識におけるオンザフライ特徴に基づくラピッド話者適応
- Authors: Mengzhe Geng, Xurong Xie, Rongfeng Su, Jianwei Yu, Zengrui Jin, Tianzi
Wang, Shujie Hu, Zi Ye, Helen Meng, Xunying Liu
- Abstract要約: 話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
- 参考スコア(独自算出の注目度): 53.17176024917725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate recognition of dysarthric and elderly speech remain challenging
tasks to date. Speaker-level heterogeneity attributed to accent or gender, when
aggregated with age and speech impairment, create large diversity among these
speakers. Scarcity of speaker-level data limits the practical use of
data-intensive model based speaker adaptation methods. To this end, this paper
proposes two novel forms of data-efficient, feature-based on-the-fly speaker
adaptation methods: variance-regularized spectral basis embedding (SVR) and
spectral feature driven f-LHUC transforms. Experiments conducted on UASpeech
dysarthric and DementiaBank Pitt elderly speech corpora suggest the proposed
on-the-fly speaker adaptation approaches consistently outperform baseline
iVector adapted hybrid DNN/TDNN and E2E Conformer systems by statistically
significant WER reduction of 2.48%-2.85% absolute (7.92%-8.06% relative), and
offline model based LHUC adaptation by 1.82% absolute (5.63% relative)
respectively.
- Abstract(参考訳): 関節症と高齢者の発話の正確な認識は、いまだに難しい課題である。
アクセントや性別に起因する話者レベルの不均質性は、年齢や言語障害を伴うと、これらの話者の間に大きな多様性を生み出す。
話者レベルのデータの不足は、データ集約型モデルに基づく話者適応手法の実用化を制限する。
そこで本研究では、分散規則化スペクトルベース埋め込み(SVR)とスペクトル特徴駆動f-LHUC変換という、2つの新しいデータ効率・特徴量に基づくオンザフライ話者適応手法を提案する。
UASpeech dysarthric と DementiaBank Pitt の高齢者音声コーパスを用いて行った実験では、提案されたオンザフライ話者適応アプローチは、統計学的に有意な WER の 2.48%-2.85% の絶対 (7.92%-8.06% ) と、オフラインモデルに基づく LHUC の 1.82% の絶対 (5.63% の相対) の適応により、ベースライン iVector によるハイブリッド DNN/TDNN と E2E コンフォーマーシステムより一貫して優れていることが示唆された。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Use of Speech Impairment Severity for Dysarthric Speech Recognition [37.93801885333925]
本稿では, 難易度と話者識別性を両立させる新しい手法を提案する。
UASpeechの実験では、最先端のハイブリッドDNN、E2E Conformer、事前訓練されたWav2vec 2.0 ASRシステムに音声障害の重大度を組み込むことが提案されている。
論文 参考訳(メタデータ) (2023-05-18T02:42:59Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Personalized Adversarial Data Augmentation for Dysarthric and Elderly
Speech Recognition [30.885165674448352]
本稿では,高齢者および変形性音声認識のための新しい話者依存型(GAN)に基づくデータ拡張手法を提案する。
GANベースのデータ拡張アプローチは、ベースライン速度摂動法を最大0.91%、絶対値3.0%で一貫して上回っている。
LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。
論文 参考訳(メタデータ) (2022-05-13T04:29:49Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。