論文の概要: Domain Adversarial Neural Networks for Dysarthric Speech Recognition
- arxiv url: http://arxiv.org/abs/2010.03623v1
- Date: Wed, 7 Oct 2020 19:51:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 22:36:05.043020
- Title: Domain Adversarial Neural Networks for Dysarthric Speech Recognition
- Title(参考訳): ドメインadversarial neural network for dysarthric speech recognition (特集 ニューラルネット)
- Authors: Dominika Woszczyk, Stavros Petridis, David Millard
- Abstract要約: 本研究では、話者に依存しない音声認識のためのドメイン逆ニューラルネットワーク(DANN)について検討する。
10桁の音声の分類タスクは、生音声を入力としてエンドツーエンドのCNNを用いて行われる。
本稿では,DANNが74.91%の絶対認識率を達成し,ベースラインを12.18%上回る結果を得た。
- 参考スコア(独自算出の注目度): 21.550420336634726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech recognition systems have improved dramatically over the last few
years, however, their performance is significantly degraded for the cases of
accented or impaired speech. This work explores domain adversarial neural
networks (DANN) for speaker-independent speech recognition on the UAS dataset
of dysarthric speech. The classification task on 10 spoken digits is performed
using an end-to-end CNN taking raw audio as input. The results are compared to
a speaker-adaptive (SA) model as well as speaker-dependent (SD) and multi-task
learning models (MTL). The experiments conducted in this paper show that DANN
achieves an absolute recognition rate of 74.91% and outperforms the baseline by
12.18%. Additionally, the DANN model achieves comparable results to the SA
model's recognition rate of 77.65%. We also observe that when labelled
dysarthric speech data is available DANN and MTL perform similarly, but when
they are not DANN performs better than MTL.
- Abstract(参考訳): 音声認識システムはここ数年で劇的に改善されているが、アクセントや障害のある音声では性能が著しく低下している。
本研究は、変形性音声のUASデータセット上での話者非依存音声認識のためのドメイン対向ニューラルネットワーク(DANN)について検討する。
10個の音声桁の分類タスクは、音声を入力とするエンドツーエンドcnnを用いて行う。
その結果,話者適応型(SA)モデル,話者依存型(SD)モデル,マルチタスク学習モデル(MTL)モデルと比較した。
本研究では,DANNが絶対認識率74.91%に達し,ベースラインを12.18%上回る結果を得た。
さらに、DANNモデルはSAモデルの認識率77.65%と同等の結果を得る。
また, ラベル付き音声データが利用可能である場合には, DANN と MTL も同様に機能するが, DANN が MTL より優れている場合も観察する。
関連論文リスト
- Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。
ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。
提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文 参考訳(メタデータ) (2022-03-17T08:05:38Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Speech Emotion Recognition Using Quaternion Convolutional Neural
Networks [1.776746672434207]
本稿では,第4次畳み込みニューラルネットワーク(QCNN)に基づく音声感情認識モデルを提案する。
音声信号のメル・スペクトログラム特徴をRGB四元数領域に符号化する。
RAVDESS、IEMOCAP、EMO-DBデータセットの精度は77.87%、70.46%、88.78%である。
論文 参考訳(メタデータ) (2021-10-31T04:06:07Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。