論文の概要: Gammatonegram Representation for End-to-End Dysarthric Speech Processing
Tasks: Speech Recognition, Speaker Identification, and Intelligibility
Assessment
- arxiv url: http://arxiv.org/abs/2307.03296v1
- Date: Thu, 6 Jul 2023 21:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 13:57:02.532506
- Title: Gammatonegram Representation for End-to-End Dysarthric Speech Processing
Tasks: Speech Recognition, Speaker Identification, and Intelligibility
Assessment
- Title(参考訳): 顎関節終末音声処理タスクにおけるガンマトネグラムの表現:音声認識,話者識別,知能度評価
- Authors: Aref Farhadipour and Hadi Veisi
- Abstract要約: 失語症(Dysarthria)は、人間の音声システムに障害を引き起こす障害である。
本稿では,ガンマトーングラムを識別的詳細で音声ファイルを表現する効果的な方法として紹介する。
我々は,各音声ファイルを画像に変換し,異なるシナリオで音声を分類する画像認識システムを提案する。
- 参考スコア(独自算出の注目度): 2.398608007786179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dysarthria is a disability that causes a disturbance in the human speech
system and reduces the quality and intelligibility of a person's speech.
Because of this effect, the normal speech processing systems can not work
properly on impaired speech. This disability is usually associated with
physical disabilities. Therefore, designing a system that can perform some
tasks by receiving voice commands in the smart home can be a significant
achievement. In this work, we introduce gammatonegram as an effective method to
represent audio files with discriminative details, which is used as input for
the convolutional neural network. On the other word, we convert each speech
file into an image and propose image recognition system to classify speech in
different scenarios. Proposed CNN is based on the transfer learning method on
the pre-trained Alexnet. In this research, the efficiency of the proposed
system for speech recognition, speaker identification, and intelligibility
assessment is evaluated. According to the results on the UA dataset, the
proposed speech recognition system achieved 91.29% accuracy in
speaker-dependent mode, the speaker identification system acquired 87.74%
accuracy in text-dependent mode, and the intelligibility assessment system
achieved 96.47% accuracy in two-class mode. Finally, we propose a multi-network
speech recognition system that works fully automatically. This system is
located in a cascade arrangement with the two-class intelligibility assessment
system, and the output of this system activates each one of the speech
recognition networks. This architecture achieves an accuracy of 92.3% WRR. The
source code of this paper is available.
- Abstract(参考訳): 失語症(Dysarthria)は、人間の音声システムに障害を引き起こし、人の音声の品質と知性を減らす障害である。
この効果により、正常な音声処理システムは、障害のある音声に対して適切に動作できない。
この障害は通常身体障害と関連している。
したがって、スマートホームで音声コマンドを受信することでタスクを遂行できるシステムを設計することは重要な成果である。
本研究では,畳み込みニューラルネットワークの入力として使用される識別的詳細を持つ音声ファイルの効率的な表現法としてガンマトングラムを導入する。
言い換えると、各音声ファイルを画像に変換し、異なるシナリオで音声を分類する画像認識システムを提案する。
提案するcnnは、事前学習されたalexnet上の転送学習法に基づいている。
本研究では,音声認識,話者識別,インテリジェンス評価のためのシステムの有効性を評価する。
uaデータセットの結果によると、提案する音声認識システムは話者依存モードでは91.29%、話者識別システムは87.74%、明瞭度評価システムは2クラスモードで96.47%の精度を達成した。
最後に,完全自動動作するマルチネットワーク音声認識システムを提案する。
このシステムは、二級知性評価システムと共にカスケード配置され、このシステムの出力は、音声認識ネットワークの各々の1つを活性化する。
このアーキテクチャは92.3%のWRRを達成している。
本論文のソースコードは利用可能である。
関連論文リスト
- L2 proficiency assessment using self-supervised speech representations [35.70742768910494]
本研究は,音声認識を必要とせず,自己教師型音声表現に基づく初期分析を大規模習熟度試験に拡張する。
自己教師型wav2vec 2.0システムの性能は、高性能の手作り評価システムとBERTベースのテキストシステムと比較される。
wav2vec 2.0ベースのシステムは応答の性質に敏感であることがわかったが、音声の書き起こしを必要とするシステムと同等の性能を持つように構成することができる。
論文 参考訳(メタデータ) (2022-11-16T11:47:20Z) - Text Independent Speaker Identification System for Access Control [0.0]
ヒューマンインテリジェンスシステムでさえ、特定の個人からスピーチを識別する精度を100%提供できない。
本稿では,Mel Frequency Cepstral Coefficients(MFCC)を特徴抽出に用い,k-Nearest Neighbor(kNN)を分類に用いたテキスト非依存話者識別システムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:42:18Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Automatic Speech recognition for Speech Assessment of Preschool Children [4.554894288663752]
本研究では,幼児期の音声の音響的特徴と言語的特徴について検討した。
Wav2Vec 2.0は、堅牢なエンドツーエンド音声認識システムを構築するために使用できるパラダイムである。
論文 参考訳(メタデータ) (2022-03-24T07:15:24Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Analysis and Tuning of a Voice Assistant System for Dysfluent Speech [7.233685721929227]
音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。
既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
論文 参考訳(メタデータ) (2021-06-18T20:58:34Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-07T12:44:08Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。