論文の概要: NeuroVoz: a Castillian Spanish corpus of parkinsonian speech
- arxiv url: http://arxiv.org/abs/2403.02371v3
- Date: Wed, 26 Feb 2025 15:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:54:24.609946
- Title: NeuroVoz: a Castillian Spanish corpus of parkinsonian speech
- Title(参考訳): NeuroVoz : パーキンソン語音声のカスティーリャスペイン語コーパス
- Authors: Janaína Mendes-Laureano, Jorge A. Gómez-García, Alejandro Guerrero-López, Elisa Luque-Buzo, Julián D. Arias-Londoño, Francisco J. Grandas-Pérez, Juan I. Godino-Llorente,
- Abstract要約: この写本は、58人の健康的なコントロールと54人のPDを含む112人のカスティーリャ・スペイン語話者からなるNeuroVoz corpusを提示している。
また、このデータセットは、GRBAS尺度に従って専門家が行う音声品質の主観評価と補完される。
このデータセットはすでにいくつかの研究を支持しており、PDのスクリーニングのベンチマーク精度は89%に達した。
- 参考スコア(独自算出の注目度): 34.916222066004465
- License:
- Abstract: The screening of Parkinson's Disease (PD) through speech is hindered by a notable lack of publicly available datasets in different languages. This fact limits the reproducibility and further exploration of existing research. To address this gap, this manuscript presents the NeuroVoz corpus consisting of 112 native Castilian-Spanish speakers, including 58 healthy controls and 54 individuals with PD, all recorded in ON state. The corpus showcases a diverse array of speech tasks: sustained vowels; diadochokinetic tests; 16 Listen-and-Repeat utterances; and spontaneous monologues. The dataset is also complemented with subjective assessments of voice quality performed by an expert according to the GRBAS scale (Grade/Roughness/Breathiness/Asthenia/Strain), as well as annotations with a thorough examination of phonation quality, intensity, speed, resonance, intelligibility, and prosody. The corpus offers a substantial resource for the exploration of the impact of PD on speech. This data set has already supported several studies, achieving a benchmark accuracy of 89% for the screening of PD. Despite these advances, the broader challenge of conducting a language-agnostic, cross-corpora analysis of Parkinsonian speech patterns remains open.
- Abstract(参考訳): パーキンソン病(PD)の音声によるスクリーニングは、様々な言語で公開されているデータセットの欠如によって妨げられている。
この事実は、既存の研究の再現性とさらなる探索を制限する。
このギャップに対処するため、本写本は、58人の健康的なコントロールと54人のPDを含む112人のカスティーリャ・スペイン語話者からなるNeuroVoz corpusをON状態に記録した。
コーパスには、持続母音、ダイアドコキネティックテスト、16のリスナー・アンド・リピート発声、自発的なモノローグなど、さまざまな音声タスクが紹介されている。
また、GRBAS尺度(Grade/Roughness/Breathiness/Asthenia/Strain)に基づいて専門家が行う声質の主観評価や、音質、強度、速度、共鳴、インテリジェンス、韻律を徹底的に検討したアノテーションを補完する。
コーパスは、音声に対するPDの影響を調べるためのかなりの資源を提供する。
このデータセットはすでにいくつかの研究を支持しており、PDのスクリーニングのベンチマーク精度は89%に達した。
これらの進歩にもかかわらず、パーキンソン語音声パターンの言語に依存しないクロスコーポラ分析を行うというより広範な課題は未解決のままである。
関連論文リスト
- Robust Cross-Etiology and Speaker-Independent Dysarthric Speech Recognition [26.26414139359157]
本稿では,最近リリースされた音声アクセシビリティ・プロジェクト (SAP-1005) データセットの評価に焦点をあてて,話者非依存型音声認識システムを提案する。
本研究の主な目的は, 話者に関係なく, 変形性音声を正確に認識できる頑健な話者非依存モデルを開発することである。
第2の目的として, TORGOデータセット上で評価することで, モデルのクロスエクソロジー性能をテストすることを目的とする。
論文 参考訳(メタデータ) (2025-01-25T00:02:58Z) - Language-Agnostic Analysis of Speech Depression Detection [2.5764071253486636]
本研究は、英語とマラヤラムの2言語間での自動抑うつ検出を解析する。
CNNモデルは、両言語に焦点をあてて、抑うつに関連する音響的特徴を特定するために訓練される。
その結果,言語に依存しない抑うつ検出システムの開発に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-23T07:35:56Z) - Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Parkinson's disease diagnostics using AI and natural language knowledge
transfer [0.0]
PDと診断された症例における生音声の分類のための深層学習手法を提案する。
対象は, PD患者38名, 健常者10名で, 50歳以上であった。
論文 参考訳(メタデータ) (2022-04-26T19:39:29Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - The Phonetic Footprint of Parkinson's Disease [16.64383793837174]
パーキンソン病(PD)は患者の運動能力に重大な影響を及ぼす。
母音の不安定性、スラリー発音、遅い発声などの特徴パターンは、影響を受けた個人によく見られる。
健常者を対象に訓練した音声認識器を用いて, PDが患者の音声足跡に与える影響について検討した。
論文 参考訳(メタデータ) (2021-12-21T20:44:21Z) - Silent Speech Interfaces for Speech Restoration: A Review [59.68902463890532]
サイレント音声インタフェース (SSI) の研究は、重度音声障害の患者に対して、代替的で拡張的なコミュニケーション方法を提供することを目的としている。
SSIは、コミュニケーションを可能にするために、音声生成中に人体によって生成される非音響バイオシグナーに依存している。
現在、ほとんどのSSIは、健康なユーザーのために実験室でのみ検証されている。
論文 参考訳(メタデータ) (2020-09-04T11:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。