論文の概要: Cross-lingual Self-Supervised Speech Representations for Improved
Dysarthric Speech Recognition
- arxiv url: http://arxiv.org/abs/2204.01670v1
- Date: Mon, 4 Apr 2022 17:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 16:34:31.768838
- Title: Cross-lingual Self-Supervised Speech Representations for Improved
Dysarthric Speech Recognition
- Title(参考訳): 言語間自己教師付き音声表現による構音障害音声認識
- Authors: Abner Hernandez, Paula Andrea P\'erez-Toro, Elmar N\"oth, Juan Rafael
Orozco-Arroyave, Andreas Maier, Seung Hee Yang
- Abstract要約: 本研究では, 変形性関節症に対するASRシステムの訓練機能として, Wav2Vec を用いた自己教師型音声表現の有用性について検討した。
我々は、Wav2Vec、Hubert、および言語間XLSRモデルから抽出された特徴を持つ音響モデルを訓練する。
結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上する可能性が示唆された。
- 参考スコア(独自算出の注目度): 15.136348385992047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art automatic speech recognition (ASR) systems perform well on
healthy speech. However, the performance on impaired speech still remains an
issue. The current study explores the usefulness of using Wav2Vec
self-supervised speech representations as features for training an ASR system
for dysarthric speech. Dysarthric speech recognition is particularly difficult
as several aspects of speech such as articulation, prosody and phonation can be
impaired. Specifically, we train an acoustic model with features extracted from
Wav2Vec, Hubert, and the cross-lingual XLSR model. Results suggest that speech
representations pretrained on large unlabelled data can improve word error rate
(WER) performance. In particular, features from the multilingual model led to
lower WERs than filterbanks (Fbank) or models trained on a single language.
Improvements were observed in English speakers with cerebral palsy caused
dysarthria (UASpeech corpus), Spanish speakers with Parkinsonian dysarthria
(PC-GITA corpus) and Italian speakers with paralysis-based dysarthria (EasyCall
corpus). Compared to using Fbank features, XLSR-based features reduced WERs by
6.8%, 22.0%, and 7.0% for the UASpeech, PC-GITA, and EasyCall corpus,
respectively.
- Abstract(参考訳): 最先端自動音声認識(ASR)システムは、健全な音声に対して良好に機能する。
しかし、障害のあるスピーチのパフォーマンスは依然として問題である。
本研究は,wav2vec自己教師付き音声表現を用いた構音障害児のasr訓練の有用性について検討する。
調音、韻律、発声などの音声のいくつかの側面が損なわれるため、構音性音声認識は特に困難である。
具体的には、Wav2Vec、Hubert、および言語間XLSRモデルから抽出した特徴を持つ音響モデルを訓練する。
結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上させることが示唆された。
特に、多言語モデルの特徴は、単一言語で訓練されたフィルタバンク(fbank)やモデルよりもwerを低くした。
英語話者の脳性麻痺(UASpeech corpus),スペイン語話者のParkinsonian dysarthria(PC-GITA corpus),イタリア語話者のParalysis-based dysarthria(EasyCall corpus)に改善が認められた。
Fbankの機能と比較して、XLSRベースの機能は、それぞれUASpeech、PC-GITA、EasyCallコーパスのWERを6.8%、22.0%、および7.0%削減した。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0 [0.22940141855172028]
英語コーパスのスタブリング分類のための微調整wav2vec 2.0は、汎用的特徴の有効性を高める。
本稿では、Fluencybankとドイツのセラピー中心のKassel State of Fluencyデータセットについて評価する。
論文 参考訳(メタデータ) (2022-04-07T13:02:12Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Comparing Supervised Models And Learned Speech Representations For
Classifying Intelligibility Of Disordered Speech On Selected Phrases [11.3463024120429]
提案手法は,選択したフレーズに対して,混乱した音声の理解度を分類するために,異なる深層学習手法を開発し,比較する。
各種自己申告障害を有する661人の話者から29の単語やフレーズを発話するサンプルを収集した。
論文 参考訳(メタデータ) (2021-07-08T17:24:25Z) - Analysis and Tuning of a Voice Assistant System for Dysfluent Speech [7.233685721929227]
音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。
既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
論文 参考訳(メタデータ) (2021-06-18T20:58:34Z) - Leveraging neural representations for facilitating access to
untranscribed speech from endangered languages [10.61744395262441]
オーストラリア・アボリジニの7言語とオランダの地方種から選択したデータを用いている。
wav2vec 2.0 Transformerの中間層からの表現は、タスクパフォーマンスに大きな利益をもたらす。
予め訓練された英語モデルを用いて抽出された特徴は、すべての評価言語の検出を改善したが、より良い検出性能は、評価言語の英語との音韻学的類似性と関連していた。
論文 参考訳(メタデータ) (2021-03-26T16:44:08Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。