論文の概要: Recent Progress in the CUHK Dysarthric Speech Recognition System
- arxiv url: http://arxiv.org/abs/2201.05845v1
- Date: Sat, 15 Jan 2022 13:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 14:49:46.325077
- Title: Recent Progress in the CUHK Dysarthric Speech Recognition System
- Title(参考訳): CUHK型変形型音声認識システムの最近の進歩
- Authors: Shansong Liu, Mengzhe Geng, Shoukang Hu, Xurong Xie, Mingyu Cui,
Jianwei Yu, Xunying Liu and Helen Meng
- Abstract要約: 障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
- 参考スコア(独自算出の注目度): 66.69024814159447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the rapid progress of automatic speech recognition (ASR) technologies
in the past few decades, recognition of disordered speech remains a highly
challenging task to date. Disordered speech presents a wide spectrum of
challenges to current data intensive deep neural networks (DNNs) based ASR
technologies that predominantly target normal speech. This paper presents
recent research efforts at the Chinese University of Hong Kong (CUHK) to
improve the performance of disordered speech recognition systems on the largest
publicly available UASpeech dysarthric speech corpus. A set of novel modelling
techniques including neural architectural search, data augmentation using
spectra-temporal perturbation, model based speaker adaptation and cross-domain
generation of visual features within an audio-visual speech recognition (AVSR)
system framework were employed to address the above challenges. The combination
of these techniques produced the lowest published word error rate (WER) of
25.21% on the UASpeech test set 16 dysarthric speakers, and an overall WER
reduction of 5.4% absolute (17.6% relative) over the CUHK 2018 dysarthric
speech recognition system featuring a 6-way DNN system combination and cross
adaptation of out-of-domain normal speech data trained systems. Bayesian model
adaptation further allows rapid adaptation to individual dysarthric speakers to
be performed using as little as 3.06 seconds of speech. The efficacy of these
techniques were further demonstrated on a CUDYS Cantonese dysarthric speech
recognition task.
- Abstract(参考訳): 過去数十年間、自動音声認識(ASR)技術の急速な進歩にもかかわらず、混乱した音声の認識は依然として非常に難しい課題である。
障害音声は、通常音声を主にターゲットとする現在のデータ集約型ディープニューラルネットワーク(DNN)ベースのASR技術に対して、幅広い課題を提示している。
本稿では,中国香港大学(cuhk)において,広範に利用可能なuaspeech dysarthric音声コーパスにおける不規則音声認識システムの性能向上に向けた最近の研究成果について述べる。
上記の課題に対処するために,ニューラルアーキテクチャ探索,スペクトル時間摂動を用いたデータ拡張,モデルに基づく話者適応,および音声視覚音声認識(AVSR)システムフレームワーク内の視覚特徴のクロスドメイン生成などの新しいモデリング手法を用いた。
これらの技術の組み合わせは、uaspeechテストセット16の単語誤り率(wer)の最低25.21%、および6方向dnnシステムの組み合わせとドメイン外正規音声データトレーニングシステムの相互適応を特徴とするcuhk 2018のdysarthric音声認識システムに対して、全体的なwarの絶対値(17.6%相対値)が5.4%減少した。
ベイズモデルによる適応により、個々の関節症話者に対して、わずか3.06秒の音声で迅速な適応を行うことができる。
これらの手法の有効性は、cudys cantonese dysarthric speech recognition taskでさらに実証された。
関連論文リスト
- UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Use of Speech Impairment Severity for Dysarthric Speech Recognition [37.93801885333925]
本稿では, 難易度と話者識別性を両立させる新しい手法を提案する。
UASpeechの実験では、最先端のハイブリッドDNN、E2E Conformer、事前訓練されたWav2vec 2.0 ASRシステムに音声障害の重大度を組み込むことが提案されている。
論文 参考訳(メタデータ) (2023-05-18T02:42:59Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Improving Dysarthric Speech Intelligibility Using Cycle-consistent
Adversarial Training [4.050982413149992]
本研究の目的は,Cycle-Consistent GANを用いた難聴から健全な音声変換のためのモデルを開発することである。
ジェネレータは、関節をスペクトル領域の健全な音声に変換するように訓練され、その後音声に変換される。
論文 参考訳(メタデータ) (2020-01-10T01:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。