論文の概要: Domain Adversarial Neural Networks for Dysarthric Speech Recognition
- arxiv url: http://arxiv.org/abs/2010.03623v1
- Date: Wed, 7 Oct 2020 19:51:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 22:36:05.043020
- Title: Domain Adversarial Neural Networks for Dysarthric Speech Recognition
- Title(参考訳): ドメインadversarial neural network for dysarthric speech recognition (特集 ニューラルネット)
- Authors: Dominika Woszczyk, Stavros Petridis, David Millard
- Abstract要約: 本研究では、話者に依存しない音声認識のためのドメイン逆ニューラルネットワーク(DANN)について検討する。
10桁の音声の分類タスクは、生音声を入力としてエンドツーエンドのCNNを用いて行われる。
本稿では,DANNが74.91%の絶対認識率を達成し,ベースラインを12.18%上回る結果を得た。
- 参考スコア(独自算出の注目度): 21.550420336634726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech recognition systems have improved dramatically over the last few
years, however, their performance is significantly degraded for the cases of
accented or impaired speech. This work explores domain adversarial neural
networks (DANN) for speaker-independent speech recognition on the UAS dataset
of dysarthric speech. The classification task on 10 spoken digits is performed
using an end-to-end CNN taking raw audio as input. The results are compared to
a speaker-adaptive (SA) model as well as speaker-dependent (SD) and multi-task
learning models (MTL). The experiments conducted in this paper show that DANN
achieves an absolute recognition rate of 74.91% and outperforms the baseline by
12.18%. Additionally, the DANN model achieves comparable results to the SA
model's recognition rate of 77.65%. We also observe that when labelled
dysarthric speech data is available DANN and MTL perform similarly, but when
they are not DANN performs better than MTL.
- Abstract(参考訳): 音声認識システムはここ数年で劇的に改善されているが、アクセントや障害のある音声では性能が著しく低下している。
本研究は、変形性音声のUASデータセット上での話者非依存音声認識のためのドメイン対向ニューラルネットワーク(DANN)について検討する。
10個の音声桁の分類タスクは、音声を入力とするエンドツーエンドcnnを用いて行う。
その結果,話者適応型(SA)モデル,話者依存型(SD)モデル,マルチタスク学習モデル(MTL)モデルと比較した。
本研究では,DANNが絶対認識率74.91%に達し,ベースラインを12.18%上回る結果を得た。
さらに、DANNモデルはSAモデルの認識率77.65%と同等の結果を得る。
また, ラベル付き音声データが利用可能である場合には, DANN と MTL も同様に機能するが, DANN が MTL より優れている場合も観察する。
関連論文リスト
- Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。
ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。
提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文 参考訳(メタデータ) (2022-03-17T08:05:38Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Speech Emotion Recognition Using Quaternion Convolutional Neural
Networks [1.776746672434207]
本稿では,第4次畳み込みニューラルネットワーク(QCNN)に基づく音声感情認識モデルを提案する。
音声信号のメル・スペクトログラム特徴をRGB四元数領域に符号化する。
RAVDESS、IEMOCAP、EMO-DBデータセットの精度は77.87%、70.46%、88.78%である。
論文 参考訳(メタデータ) (2021-10-31T04:06:07Z) - Is Attention always needed? A Case Study on Language Identification from
Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。
CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。
LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文 参考訳(メタデータ) (2021-10-05T16:38:57Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。