論文の概要: EasyCall corpus: a dysarthric speech dataset
- arxiv url: http://arxiv.org/abs/2104.02542v1
- Date: Tue, 6 Apr 2021 14:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 17:28:32.540436
- Title: EasyCall corpus: a dysarthric speech dataset
- Title(参考訳): EasyCall corpus: 変形性音声データセット
- Authors: Rosanna Turrisi, Arianna Braccia, Marco Emanuele, Simone Giulietti,
Maura Pugliatti, Mariachiara Sensi, Luciano Fadiga, Leonardo Badino
- Abstract要約: 本稿では,イタリア語の音声コマンドデータセットであるeasycall corpusを提案する。
このデータセットは24名の健常者および31名の発話者による21386の音声記録で構成されており、個々の音声障害度は神経学者によって評価された。
このコーパスは、不整脈患者のためのASRベースの補助技術の開発のためのリソースを提供することを目指しています。
- 参考スコア(独自算出の注目度): 4.6760299097922715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new dysarthric speech command dataset in Italian,
called EasyCall corpus. The dataset consists of 21386 audio recordings from 24
healthy and 31 dysarthric speakers, whose individual degree of speech
impairment was assessed by neurologists through the Therapy Outcome Measure.
The corpus aims at providing a resource for the development of ASR-based
assistive technologies for patients with dysarthria. In particular, it may be
exploited to develop a voice-controlled contact application for commercial
smartphones, aiming at improving dysarthric patients' ability to communicate
with their family and caregivers. Before recording the dataset, participants
were administered a survey to evaluate which commands are more likely to be
employed by dysarthric individuals in a voice-controlled contact application.
In addition, the dataset includes a list of non-commands (i.e., words
near/inside commands or phonetically close to commands) that can be leveraged
to build a more robust command recognition system. At present commercial ASR
systems perform poorly on the EasyCall Corpus as we report in this paper. This
result corroborates the need for dysarthric speech corpora for developing
effective assistive technologies. To the best of our knowledge, this database
represents the richest corpus of dysarthric speech to date.
- Abstract(参考訳): 本稿では,イタリア語の音声コマンドデータセットであるeasycall corpusを提案する。
データセットは、24人の健常者と31人の健常者による21386の音声録音から成り、その個々の発話障害の程度は、治療結果尺度を通じて神経科医によって評価された。
このコーパスは、変形性関節症患者のためのASRベースの補助技術開発のためのリソースを提供することを目的としている。
特に,患者が家族や介護者とコミュニケーションする能力を向上させることを目的とした,商用スマートフォン用音声制御コンタクトアプリケーションの開発に利用することができる。
データセットを記録する前に、参加者は音声コントロールされた接触アプリケーションにおいて、どのコマンドが変形性個人によって採用されるかを評価する調査を行った。
さらにデータセットには、より堅牢なコマンド認識システムを構築するために活用できる、非コマンドのリスト(例えば、コマンドの近傍/内側またはコマンドに近い単語)が含まれている。
本報告では,現在市販のASRシステムにおいて,EasyCall Corpusでは性能が劣っていることを報告する。
この結果は、効果的な補助技術を開発するために、調音性音声コーパスの必要性を裏付けるものである。
我々の知る限りでは、このデータベースは今までで最も豊かな変形性音声コーパスを表している。
関連論文リスト
- Speech motion anomaly detection via cross-modal translation of 4D motion
fields from tagged MRI [12.515470808059666]
本研究は, 音声の動作異常を検出するための枠組みを, 対応する音声と組み合わせて開発することを目的とする。
これは、健康な個人のみのデータに基づいて訓練された深いクロスモーダルトランスレータを使用することによって達成される。
一級のSVMは、健康な個人の分光図と患者の分光図を区別するために使用される。
論文 参考訳(メタデータ) (2024-02-10T16:16:24Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - PoCaP Corpus: A Multimodal Dataset for Smart Operating Room Speech
Assistant using Interventional Radiology Workflow Analysis [7.189635716814341]
本稿では,PoCaP (Port Catheter Placement) Corpus と呼ばれる多モード干渉ラジオロジーデータセットを提案する。
このコーパスは、ドイツ語の音声と音声の信号、X線画像、および6人の外科医による31のPoCaPの介入から収集されたシステムコマンドで構成されている。
論文 参考訳(メタデータ) (2022-06-24T14:39:11Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Personalized Adversarial Data Augmentation for Dysarthric and Elderly
Speech Recognition [30.885165674448352]
本稿では,高齢者および変形性音声認識のための新しい話者依存型(GAN)に基づくデータ拡張手法を提案する。
GANベースのデータ拡張アプローチは、ベースライン速度摂動法を最大0.91%、絶対値3.0%で一貫して上回っている。
LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。
論文 参考訳(メタデータ) (2022-05-13T04:29:49Z) - PriMock57: A Dataset Of Primary Care Mock Consultations [66.29154510369372]
本稿では,57件のモック・プライマリ・ケア・コンサルテーションからなる,パブリック・アクセス・高品質データセットの開発について詳述する。
我々の研究は、データセットが会話型医療ASRのベンチマークや、テキストからのコンサルティングノート生成にどのように使用できるかを説明する。
論文 参考訳(メタデータ) (2022-04-01T10:18:28Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Silent Speech Interfaces for Speech Restoration: A Review [59.68902463890532]
サイレント音声インタフェース (SSI) の研究は、重度音声障害の患者に対して、代替的で拡張的なコミュニケーション方法を提供することを目的としている。
SSIは、コミュニケーションを可能にするために、音声生成中に人体によって生成される非音響バイオシグナーに依存している。
現在、ほとんどのSSIは、健康なユーザーのために実験室でのみ検証されている。
論文 参考訳(メタデータ) (2020-09-04T11:05:50Z) - Improving Dysarthric Speech Intelligibility Using Cycle-consistent
Adversarial Training [4.050982413149992]
本研究の目的は,Cycle-Consistent GANを用いた難聴から健全な音声変換のためのモデルを開発することである。
ジェネレータは、関節をスペクトル領域の健全な音声に変換するように訓練され、その後音声に変換される。
論文 参考訳(メタデータ) (2020-01-10T01:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。