論文の概要: Exploring Self-supervised Pre-trained ASR Models For Dysarthric and
Elderly Speech Recognition
- arxiv url: http://arxiv.org/abs/2302.14564v2
- Date: Thu, 22 Jun 2023 06:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 17:32:20.659081
- Title: Exploring Self-supervised Pre-trained ASR Models For Dysarthric and
Elderly Speech Recognition
- Title(参考訳): 義足・高齢者音声認識のための自己教師付き事前学習型asrモデルの検討
- Authors: Shujie Hu, Xurong Xie, Zengrui Jin, Mengzhe Geng, Yi Wang, Mingyu Cui,
Jiajun Deng, Xunying Liu, Helen Meng
- Abstract要約: 本稿では,TDNN と Conformer ASR システムにドメイン適応型SSL事前訓練モデルを統合する手法について検討する。
- 参考スコア(独自算出の注目度): 57.31233839489528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic recognition of disordered and elderly speech remains a highly
challenging task to date due to the difficulty in collecting such data in large
quantities. This paper explores a series of approaches to integrate domain
adapted SSL pre-trained models into TDNN and Conformer ASR systems for
dysarthric and elderly speech recognition: a) input feature fusion between
standard acoustic frontends and domain adapted wav2vec2.0 speech
representations; b) frame-level joint decoding of TDNN systems separately
trained using standard acoustic features alone and with additional wav2vec2.0
features; and c) multi-pass decoding involving the TDNN/Conformer system
outputs to be rescored using domain adapted wav2vec2.0 models. In addition,
domain adapted wav2vec2.0 representations are utilized in
acoustic-to-articulatory (A2A) inversion to construct multi-modal dysarthric
and elderly speech recognition systems. Experiments conducted on the UASpeech
dysarthric and DementiaBank Pitt elderly speech corpora suggest TDNN and
Conformer ASR systems integrated domain adapted wav2vec2.0 models consistently
outperform the standalone wav2vec2.0 models by statistically significant WER
reductions of 8.22% and 3.43% absolute (26.71% and 15.88% relative) on the two
tasks respectively. The lowest published WERs of 22.56% (52.53% on very low
intelligibility, 39.09% on unseen words) and 18.17% are obtained on the
UASpeech test set of 16 dysarthric speakers, and the DementiaBank Pitt test set
respectively.
- Abstract(参考訳): 不規則・高齢の音声の自動認識は、大量のデータ収集が困難であるため、現在まで非常に困難な課題である。
本稿では,TDNN と Conformer ASR システムにドメイン適応型SSL事前訓練モデルを統合するための一連のアプローチについて検討する。
a) 標準音響フロントエンドと領域適応wav2vec2.0音声表現との入力特徴融合
b)標準音響特徴と追加のwav2vec2.0特徴のみを用いて個別に訓練されたTDNNシステムのフレームレベル共同復号
c) ドメイン適応wav2vec2.0モデルを用いて、TDNN/Conformerシステム出力を含むマルチパス復号化を行う。
さらに、ドメイン適応wav2vec2.0表現はa2aインバージョンで活用され、マルチモーダル・ディサルトリックおよび高齢者音声認識システムを構築する。
uaspeech dysarthric と dementiabank pitt elderly speech corpora の実験では、tdnn と conformer asr systems integrated domain adapt wav2vec2.0 モデルが、統計学的に有意な wer モデルを8.22% と 3.43% の絶対値 (26.71% と 15.88% の絶対値) でそれぞれ上回っていることが示唆された。
最も低いWERは22.56%(非常に低い知性では52.53%、見えない単語では39.09%)で、UASpeechテストセットの16の変形性スピーカでは18.17%、DementiaBank Pittテストセットでは18.17%である。
関連論文リスト
- Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Speaker adaptation for Wav2vec2 based dysarthric ASR [5.478091551514826]
変形性音声認識は、訓練データの欠如と話者特性の過度なミスマッチが原因で大きな課題となっている。
近年のASRシステムは、認識性能を向上させるために、wav2vec2のような容易に利用できる事前訓練モデルの恩恵を受けている。
fMLLR特徴量を用いた微調整wav2vec2の適応ネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:46:35Z) - Robust Speaker Recognition with Transformers Using wav2vec 2.0 [7.419725234099729]
本稿では,話者認識タスクにwav2vec 2.0深層音声表現を用いることについて検討する。
コントラスト予測符号化事前学習方式は, ラベルなしデータのパワーを効果的に活用する。
論文 参考訳(メタデータ) (2022-03-28T20:59:58Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。