論文の概要: An analysis of degenerating speech due to progressive dysarthria on ASR
performance
- arxiv url: http://arxiv.org/abs/2211.00089v1
- Date: Mon, 31 Oct 2022 18:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 14:27:32.982738
- Title: An analysis of degenerating speech due to progressive dysarthria on ASR
performance
- Title(参考訳): 進行性不整脈によるasr機能低下音声の分析
- Authors: Katrin Tomanek, Katie Seaver, Pan-Pan Jiang, Richard Cave, Lauren
Harrel, Jordan R. Green
- Abstract要約: 筋萎縮性側索硬化症(ALS)による発声障害の4例
3つのモデル全てのパフォーマンスは、音声がより損なわれるにつれて大幅に低下した。
A-SDモデルの性能向上には至らなかったが, 音声の劣化にともなって, 早期に発声を録音することは困難であった。
- 参考スコア(独自算出の注目度): 4.4837870267635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although personalized automatic speech recognition (ASR) models have recently
been designed to recognize even severely impaired speech, model performance may
degrade over time for persons with degenerating speech. The aims of this study
were to (1) analyze the change of performance of ASR over time in individuals
with degrading speech, and (2) explore mitigation strategies to optimize
recognition throughout disease progression. Speech was recorded by four
individuals with degrading speech due to amyotrophic lateral sclerosis (ALS).
Word error rates (WER) across recording sessions were computed for three ASR
models: Unadapted Speaker Independent (U-SI), Adapted Speaker Independent
(A-SI), and Adapted Speaker Dependent (A-SD or personalized). The performance
of all three models degraded significantly over time as speech became more
impaired, but the performance of the A-SD model improved markedly when it was
updated with recordings from the severe stages of speech progression. Recording
additional utterances early in the disease before speech degraded significantly
did not improve the performance of A-SD models. Overall, our findings emphasize
the importance of continuous recording (and model retraining) when providing
personalized models for individuals with progressive speech impairments.
- Abstract(参考訳): パーソナライズされた自動音声認識(ASR)モデルは、最近、ひどい障害のある音声を認識できるように設計されているが、縮退する音声の人には、時間とともにモデル性能が低下する可能性がある。
本研究の目的は,(1)失語者におけるasrの時間経過の変化を分析し,(2)疾患進行を通じて認識を最適化するための緩和戦略を検討することである。
症例は筋萎縮性側索硬化症(ALS)の4例であった。
記録セッション間の単語誤り率(WER)は、非適応話者独立(U-SI)、適応話者独立(A-SI)、適応話者依存(A-SDまたはパーソナライズ)の3つのモデルで計算された。
発話障害が増大するにつれて,3つのモデルの性能は時間とともに著しく低下したが,a-sdモデルの性能は,音声進行の重篤な段階からの録音により大幅に向上した。
A-SDモデルの性能向上には至らなかったが, 音声の劣化にともなって, 早期に発声を録音することは困難であった。
本研究は,進行性音声障害のある個人に対してパーソナライズされたモデルを提供する際に,連続記録(およびモデル再訓練)の重要性を強調した。
関連論文リスト
- Accurate synthesis of Dysarthric Speech for ASR data augmentation [5.223856537504927]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
本稿では,ASRトレーニングデータ拡張を目的とした新しい音声合成法を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:42:24Z) - A study on the impact of Self-Supervised Learning on automatic dysarthric speech assessment [6.284142286798582]
以上の結果から,HuBERTは難聴分類,単語認識,インテリジェンス分類において最も汎用性の高い特徴抽出器であり,従来の音響特徴と比較して,それぞれ+24.7%,+61%,テキストおよび+7.2%の精度を実現していることがわかった。
論文 参考訳(メタデータ) (2023-06-07T11:04:02Z) - Personalized Adversarial Data Augmentation for Dysarthric and Elderly
Speech Recognition [30.885165674448352]
本稿では,高齢者および変形性音声認識のための新しい話者依存型(GAN)に基づくデータ拡張手法を提案する。
GANベースのデータ拡張アプローチは、ベースライン速度摂動法を最大0.91%、絶対値3.0%で一貫して上回っている。
LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。
論文 参考訳(メタデータ) (2022-05-13T04:29:49Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。