論文の概要: Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition
- arxiv url: http://arxiv.org/abs/2407.13782v1
- Date: Wed, 3 Jul 2024 08:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-28 18:48:53.817148
- Title: Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition
- Title(参考訳): 変形性関節症・高齢者音声認識における自己教師付きASRモデルと特徴
- Authors: Shujie Hu, Xurong Xie, Mengzhe Geng, Zengrui Jin, Jiajun Deng, Guinan Li, Yi Wang, Mingyu Cui, Tianzi Wang, Helen Meng, Xunying Liu,
- Abstract要約: 本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
- 参考スコア(独自算出の注目度): 71.87998918300806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) based speech foundation models have been applied to a wide range of ASR tasks. However, their application to dysarthric and elderly speech via data-intensive parameter fine-tuning is confronted by in-domain data scarcity and mismatch. To this end, this paper explores a series of approaches to integrate domain fine-tuned SSL pre-trained models and their features into TDNN and Conformer ASR systems for dysarthric and elderly speech recognition. These include: a) input feature fusion between standard acoustic frontends and domain fine-tuned SSL speech representations; b) frame-level joint decoding between TDNN systems separately trained using standard acoustic features alone and those with additional domain fine-tuned SSL features; and c) multi-pass decoding involving the TDNN/Conformer system outputs to be rescored using domain fine-tuned pre-trained ASR models. In addition, fine-tuned SSL speech features are used in acoustic-to-articulatory (A2A) inversion to construct multi-modal ASR systems. Experiments are conducted on four tasks: the English UASpeech and TORGO dysarthric speech corpora; and the English DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speech datasets. The TDNN systems constructed by integrating domain-adapted HuBERT, wav2vec2-conformer or multi-lingual XLSR models and their features consistently outperform the standalone fine-tuned SSL pre-trained models. These systems produced statistically significant WER or CER reductions of 6.53%, 1.90%, 2.04% and 7.97% absolute (24.10%, 23.84%, 10.14% and 31.39% relative) on the four tasks respectively. Consistent improvements in Alzheimer's Disease detection accuracy are also obtained using the DementiaBank Pitt elderly speech recognition outputs.
- Abstract(参考訳): 自己教師付き学習(SSL)に基づく音声基礎モデルは、幅広いASRタスクに適用されている。
しかし, 構内データ不足とミスマッチにより, データ集約的パラメータ細調整による難聴, 高齢者の音声への応用が直面する。
そこで本研究では, 難聴者および高齢者の音声認識のためのTDNNおよびConformer ASRシステムに, SSL事前訓練モデルとその特徴を統合するための一連のアプローチについて検討する。
以下を含む。
a) 標準音響フロントエンドとドメイン微調整SSL音声表現との入力特徴融合
b)標準音響特徴のみを用いて個別に訓練されたTDNNシステムと追加のドメイン微調整SSL特徴を有するものとのフレームレベル共同復号
c)TDNN/Conformerシステム出力を含むマルチパスデコーディングは、ドメインの微調整された事前訓練されたASRモデルを用いて再構成される。
さらに、マルチモーダルASRシステムを構築するために、音響から調音への変換(A2A)において微調整のSSL音声特徴を用いる。
The English UASpeech and TORGO dysarthric speechcorpora, and the English DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speech datasets。
ドメイン適応型 HuBERT, wav2vec2-conformer または multi-lingual XLSR モデルを統合することで構築されたTDNN システムは、スタンドアロンの微調整型SSL事前訓練モデルよりも一貫して優れている。
これらのシステムは、4つのタスクでそれぞれ6.53%、1.90%、2.04%、および7.97%の絶対値(24.10%、23.84%、10.14%、31.39%の相対値)を統計的に有意なWERまたはCERの削減を実現した。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
関連論文リスト
- Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO [0.13108652488669734]
脳性麻痺 (CP) と筋萎縮性側索硬化症 (ALS) の患者は, 関節症に悩まされ, 変形性関節症, 非典型的発声パターンを呈する。
我々は、Whisper や Wav2vec2.0 のような最先端の音声認識(SOTA)技術が、訓練データがないために非定型話者を疎外することがわかった。
我々の研究は、SOTA ASRとドメイン固有のエラー訂正を活用することを目指している。
論文 参考訳(メタデータ) (2024-11-01T19:11:54Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Acoustic-to-articulatory inversion for dysarthric speech: Are
pre-trained self-supervised representations favorable? [3.43759997215733]
音響-調音インバージョン(AAI)は、音響から調音空間へのマッピングを伴う。
本研究では,事前に訓練された自己教師付き学習(SSL)モデルの表現を用いて,変形性音声に対するAAIを実行する。
論文 参考訳(メタデータ) (2023-09-03T07:44:38Z) - Exploring Self-supervised Pre-trained ASR Models For Dysarthric and
Elderly Speech Recognition [57.31233839489528]
本稿では,TDNN と Conformer ASR システムにドメイン適応型SSL事前訓練モデルを統合する手法について検討する。
論文 参考訳(メタデータ) (2023-02-28T13:39:17Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。