論文の概要: Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design
- arxiv url: http://arxiv.org/abs/2406.10304v1
- Date: Fri, 14 Jun 2024 03:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:01:54.794786
- Title: Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design
- Title(参考訳): 変形性関節症に対するボイスウェイクアップの強化:マンダリン発声コーパスのリリースとカスタムシステム設計
- Authors: Ming Gao, Hang Chen, Jun Du, Xin Xu, Hongxiao Guo, Hui Bu, Jianxing Yang, Ming Li, Chin-Hui Lee,
- Abstract要約: 本稿では, 現実的な応用を目指して, 難聴者のための覚醒語スポッティング(WWS)タスクについて述べる。
我々は,家庭環境における変形性個人を対象としたデータセットであるMandarin Dysarthria Speech Corpus (MDSC) をオープンソースとしてリリースした。
また, 難易度を処理し, 卓越した性能を達成し, 頑健性を示すカスタマイズ型変形性WWSシステムの開発を行った。
- 参考スコア(独自算出の注目度): 58.50329724298128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Smart home technology has gained widespread adoption, facilitating effortless control of devices through voice commands. However, individuals with dysarthria, a motor speech disorder, face challenges due to the variability of their speech. This paper addresses the wake-up word spotting (WWS) task for dysarthric individuals, aiming to integrate them into real-world applications. To support this, we release the open-source Mandarin Dysarthria Speech Corpus (MDSC), a dataset designed for dysarthric individuals in home environments. MDSC encompasses information on age, gender, disease types, and intelligibility evaluations. Furthermore, we perform comprehensive experimental analysis on MDSC, highlighting the challenges encountered. We also develop a customized dysarthria WWS system that showcases robustness in handling intelligibility and achieving exceptional performance. MDSC will be released on https://www.aishelltech.com/AISHELL_6B.
- Abstract(参考訳): スマートホーム技術は広く普及し、音声コマンドを通じてデバイスをシームレスに制御する。
しかし、運動性発声障害である失語症患者は、発話の変動により困難に直面している。
本稿では, 現実的な応用を目指して, 難聴者に対する覚醒語スポッティング(WWS)課題に対処する。
これをサポートするために、家庭環境における変形性個人を対象としたデータセットである、オープンソースのMandarin Dysarthria Speech Corpus (MDSC) をリリースする。
MDSCは、年齢、性別、病型、および知性評価に関する情報を含む。
さらに,MDSCにおける総合的な実験分析を行い,その課題を明らかにした。
また, 難易度を処理し, 卓越した性能を達成し, 頑健性を示す, カスタマイズ型変形性WWSシステムの開発を行った。
MDSCはhttps://www.aishelltech.com/AISHELL_6B.comでリリースされる。
関連論文リスト
- Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO [0.13108652488669734]
脳性麻痺 (CP) と筋萎縮性側索硬化症 (ALS) の患者は, 関節症に悩まされ, 変形性関節症, 非典型的発声パターンを呈する。
我々は、Whisper や Wav2vec2.0 のような最先端の音声認識(SOTA)技術が、訓練データがないために非定型話者を疎外することがわかった。
我々の研究は、SOTA ASRとドメイン固有のエラー訂正を活用することを目指している。
論文 参考訳(メタデータ) (2024-11-01T19:11:54Z) - Empowering Dysarthric Speech: Leveraging Advanced LLMs for Accurate Speech Correction and Multimodal Emotion Analysis [0.0]
本稿では, 変形性関節症を認識・翻訳するための新しいアプローチを提案する。
我々は、高精度な音声補正とマルチモーダル感情分析に先進的な大規模言語モデルを活用する。
我々の枠組みは、意図した文を歪んだ音声から高精度に再構成しながら、幸福、悲しみ、中立、驚き、怒り、恐怖などの感情を識別する。
論文 参考訳(メタデータ) (2024-10-13T20:54:44Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Unsupervised Pre-Training for Vietnamese Automatic Speech Recognition in
the HYKIST Project [0.0]
先住民と移民の間の言語上の困難は、特に医学領域において、日常的に共通の問題となる。
HYKISTプロジェクトの目的は、ASRとMTとの患者と医師のコミュニケーションを支援する音声翻訳システムを開発することである。
ベトナム語医学領域における会話音声認識タスクのためのASRシステムの構築について述べる。
論文 参考訳(メタデータ) (2023-09-26T21:12:09Z) - Cross-lingual Self-Supervised Speech Representations for Improved
Dysarthric Speech Recognition [15.136348385992047]
本研究では, 変形性関節症に対するASRシステムの訓練機能として, Wav2Vec を用いた自己教師型音声表現の有用性について検討した。
我々は、Wav2Vec、Hubert、および言語間XLSRモデルから抽出された特徴を持つ音響モデルを訓練する。
結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-04T17:36:01Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - EasyCall corpus: a dysarthric speech dataset [4.6760299097922715]
本稿では,イタリア語の音声コマンドデータセットであるeasycall corpusを提案する。
このデータセットは24名の健常者および31名の発話者による21386の音声記録で構成されており、個々の音声障害度は神経学者によって評価された。
このコーパスは、不整脈患者のためのASRベースの補助技術の開発のためのリソースを提供することを目指しています。
論文 参考訳(メタデータ) (2021-04-06T14:32:47Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。