論文の概要: Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design
- arxiv url: http://arxiv.org/abs/2406.10304v1
- Date: Fri, 14 Jun 2024 03:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:01:54.794786
- Title: Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design
- Title(参考訳): 変形性関節症に対するボイスウェイクアップの強化:マンダリン発声コーパスのリリースとカスタムシステム設計
- Authors: Ming Gao, Hang Chen, Jun Du, Xin Xu, Hongxiao Guo, Hui Bu, Jianxing Yang, Ming Li, Chin-Hui Lee,
- Abstract要約: 本稿では, 現実的な応用を目指して, 難聴者のための覚醒語スポッティング(WWS)タスクについて述べる。
我々は,家庭環境における変形性個人を対象としたデータセットであるMandarin Dysarthria Speech Corpus (MDSC) をオープンソースとしてリリースした。
また, 難易度を処理し, 卓越した性能を達成し, 頑健性を示すカスタマイズ型変形性WWSシステムの開発を行った。
- 参考スコア(独自算出の注目度): 58.50329724298128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Smart home technology has gained widespread adoption, facilitating effortless control of devices through voice commands. However, individuals with dysarthria, a motor speech disorder, face challenges due to the variability of their speech. This paper addresses the wake-up word spotting (WWS) task for dysarthric individuals, aiming to integrate them into real-world applications. To support this, we release the open-source Mandarin Dysarthria Speech Corpus (MDSC), a dataset designed for dysarthric individuals in home environments. MDSC encompasses information on age, gender, disease types, and intelligibility evaluations. Furthermore, we perform comprehensive experimental analysis on MDSC, highlighting the challenges encountered. We also develop a customized dysarthria WWS system that showcases robustness in handling intelligibility and achieving exceptional performance. MDSC will be released on https://www.aishelltech.com/AISHELL_6B.
- Abstract(参考訳): スマートホーム技術は広く普及し、音声コマンドを通じてデバイスをシームレスに制御する。
しかし、運動性発声障害である失語症患者は、発話の変動により困難に直面している。
本稿では, 現実的な応用を目指して, 難聴者に対する覚醒語スポッティング(WWS)課題に対処する。
これをサポートするために、家庭環境における変形性個人を対象としたデータセットである、オープンソースのMandarin Dysarthria Speech Corpus (MDSC) をリリースする。
MDSCは、年齢、性別、病型、および知性評価に関する情報を含む。
さらに,MDSCにおける総合的な実験分析を行い,その課題を明らかにした。
また, 難易度を処理し, 卓越した性能を達成し, 頑健性を示す, カスタマイズ型変形性WWSシステムの開発を行った。
MDSCはhttps://www.aishelltech.com/AISHELL_6B.comでリリースされる。
関連論文リスト
- UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Unsupervised Pre-Training for Vietnamese Automatic Speech Recognition in
the HYKIST Project [0.0]
先住民と移民の間の言語上の困難は、特に医学領域において、日常的に共通の問題となる。
HYKISTプロジェクトの目的は、ASRとMTとの患者と医師のコミュニケーションを支援する音声翻訳システムを開発することである。
ベトナム語医学領域における会話音声認識タスクのためのASRシステムの構築について述べる。
論文 参考訳(メタデータ) (2023-09-26T21:12:09Z) - Personalized Adversarial Data Augmentation for Dysarthric and Elderly
Speech Recognition [30.885165674448352]
本稿では,高齢者および変形性音声認識のための新しい話者依存型(GAN)に基づくデータ拡張手法を提案する。
GANベースのデータ拡張アプローチは、ベースライン速度摂動法を最大0.91%、絶対値3.0%で一貫して上回っている。
LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。
論文 参考訳(メタデータ) (2022-05-13T04:29:49Z) - Cross-lingual Self-Supervised Speech Representations for Improved
Dysarthric Speech Recognition [15.136348385992047]
本研究では, 変形性関節症に対するASRシステムの訓練機能として, Wav2Vec を用いた自己教師型音声表現の有用性について検討した。
我々は、Wav2Vec、Hubert、および言語間XLSRモデルから抽出された特徴を持つ音響モデルを訓練する。
結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-04T17:36:01Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric
Speech Recognition [4.637732011720613]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
頑健な変形性障害に対処するためには,十分な訓練音声が必要である。
テキスト音声合成の最近の進歩は、データ拡張に合成を利用する可能性を示している。
論文 参考訳(メタデータ) (2022-01-27T15:22:09Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - EasyCall corpus: a dysarthric speech dataset [4.6760299097922715]
本稿では,イタリア語の音声コマンドデータセットであるeasycall corpusを提案する。
このデータセットは24名の健常者および31名の発話者による21386の音声記録で構成されており、個々の音声障害度は神経学者によって評価された。
このコーパスは、不整脈患者のためのASRベースの補助技術の開発のためのリソースを提供することを目指しています。
論文 参考訳(メタデータ) (2021-04-06T14:32:47Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。