論文の概要: EasyCall corpus: a dysarthric speech dataset
- arxiv url: http://arxiv.org/abs/2104.02542v1
- Date: Tue, 6 Apr 2021 14:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 17:28:32.540436
- Title: EasyCall corpus: a dysarthric speech dataset
- Title(参考訳): EasyCall corpus: 変形性音声データセット
- Authors: Rosanna Turrisi, Arianna Braccia, Marco Emanuele, Simone Giulietti,
Maura Pugliatti, Mariachiara Sensi, Luciano Fadiga, Leonardo Badino
- Abstract要約: 本稿では,イタリア語の音声コマンドデータセットであるeasycall corpusを提案する。
このデータセットは24名の健常者および31名の発話者による21386の音声記録で構成されており、個々の音声障害度は神経学者によって評価された。
このコーパスは、不整脈患者のためのASRベースの補助技術の開発のためのリソースを提供することを目指しています。
- 参考スコア(独自算出の注目度): 4.6760299097922715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new dysarthric speech command dataset in Italian,
called EasyCall corpus. The dataset consists of 21386 audio recordings from 24
healthy and 31 dysarthric speakers, whose individual degree of speech
impairment was assessed by neurologists through the Therapy Outcome Measure.
The corpus aims at providing a resource for the development of ASR-based
assistive technologies for patients with dysarthria. In particular, it may be
exploited to develop a voice-controlled contact application for commercial
smartphones, aiming at improving dysarthric patients' ability to communicate
with their family and caregivers. Before recording the dataset, participants
were administered a survey to evaluate which commands are more likely to be
employed by dysarthric individuals in a voice-controlled contact application.
In addition, the dataset includes a list of non-commands (i.e., words
near/inside commands or phonetically close to commands) that can be leveraged
to build a more robust command recognition system. At present commercial ASR
systems perform poorly on the EasyCall Corpus as we report in this paper. This
result corroborates the need for dysarthric speech corpora for developing
effective assistive technologies. To the best of our knowledge, this database
represents the richest corpus of dysarthric speech to date.
- Abstract(参考訳): 本稿では,イタリア語の音声コマンドデータセットであるeasycall corpusを提案する。
データセットは、24人の健常者と31人の健常者による21386の音声録音から成り、その個々の発話障害の程度は、治療結果尺度を通じて神経科医によって評価された。
このコーパスは、変形性関節症患者のためのASRベースの補助技術開発のためのリソースを提供することを目的としている。
特に,患者が家族や介護者とコミュニケーションする能力を向上させることを目的とした,商用スマートフォン用音声制御コンタクトアプリケーションの開発に利用することができる。
データセットを記録する前に、参加者は音声コントロールされた接触アプリケーションにおいて、どのコマンドが変形性個人によって採用されるかを評価する調査を行った。
さらにデータセットには、より堅牢なコマンド認識システムを構築するために活用できる、非コマンドのリスト(例えば、コマンドの近傍/内側またはコマンドに近い単語)が含まれている。
本報告では,現在市販のASRシステムにおいて,EasyCall Corpusでは性能が劣っていることを報告する。
この結果は、効果的な補助技術を開発するために、調音性音声コーパスの必要性を裏付けるものである。
我々の知る限りでは、このデータベースは今までで最も豊かな変形性音声コーパスを表している。
関連論文リスト
- Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design [58.50329724298128]
本稿では, 現実的な応用を目指して, 難聴者のための覚醒語スポッティング(WWS)タスクについて述べる。
我々は,家庭環境における変形性個人を対象としたデータセットであるMandarin Dysarthria Speech Corpus (MDSC) をオープンソースとしてリリースした。
また, 難易度を処理し, 卓越した性能を達成し, 頑健性を示すカスタマイズ型変形性WWSシステムの開発を行った。
論文 参考訳(メタデータ) (2024-06-14T03:06:55Z) - Voice EHR: Introducing Multimodal Audio Data for Health [3.8090294667599927]
既存の技術は、高所得国で高価な記録機器で収集された限られたデータセットに依存している。
本報告では、モバイル/ウェブアプリケーションのみを用いて、ガイド付き質問を通じて健康データをキャプチャする新しいデータ型とそれに対応する収集システムを紹介する。
論文 参考訳(メタデータ) (2024-04-02T04:07:22Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - PoCaP Corpus: A Multimodal Dataset for Smart Operating Room Speech
Assistant using Interventional Radiology Workflow Analysis [7.189635716814341]
本稿では,PoCaP (Port Catheter Placement) Corpus と呼ばれる多モード干渉ラジオロジーデータセットを提案する。
このコーパスは、ドイツ語の音声と音声の信号、X線画像、および6人の外科医による31のPoCaPの介入から収集されたシステムコマンドで構成されている。
論文 参考訳(メタデータ) (2022-06-24T14:39:11Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Personalized Adversarial Data Augmentation for Dysarthric and Elderly
Speech Recognition [30.885165674448352]
本稿では,高齢者および変形性音声認識のための新しい話者依存型(GAN)に基づくデータ拡張手法を提案する。
GANベースのデータ拡張アプローチは、ベースライン速度摂動法を最大0.91%、絶対値3.0%で一貫して上回っている。
LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。
論文 参考訳(メタデータ) (2022-05-13T04:29:49Z) - PriMock57: A Dataset Of Primary Care Mock Consultations [66.29154510369372]
本稿では,57件のモック・プライマリ・ケア・コンサルテーションからなる,パブリック・アクセス・高品質データセットの開発について詳述する。
我々の研究は、データセットが会話型医療ASRのベンチマークや、テキストからのコンサルティングノート生成にどのように使用できるかを説明する。
論文 参考訳(メタデータ) (2022-04-01T10:18:28Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。