論文の概要: NeuroVoz: a Castillian Spanish corpus of parkinsonian speech
- arxiv url: http://arxiv.org/abs/2403.02371v2
- Date: Wed, 6 Mar 2024 11:08:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 11:48:26.352494
- Title: NeuroVoz: a Castillian Spanish corpus of parkinsonian speech
- Title(参考訳): NeuroVoz : パーキンソン語音声のカスティーリャスペイン語コーパス
- Authors: Jana\'ina Mendes-Laureano, Jorge A. G\'omez-Garc\'ia, Alejandro
Guerrero-L\'opez, Elisa Luque-Buzo, Juli\'an D. Arias-Londo\~no, Francisco J.
Grandas-P\'erez, Juan I. Godino-Llorente
- Abstract要約: NeuroVozは、平均26.88 pm 3.35$のオーディオ録音2,903枚で構成されている。
このデータセットは、すでにいくつかの研究を基盤にしており、PD音声パターン識別のベンチマーク精度は89%に達している。
- 参考スコア(独自算出の注目度): 36.23298373892936
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The advancement of Parkinson's Disease (PD) diagnosis through speech analysis
is hindered by a notable lack of publicly available, diverse language datasets,
limiting the reproducibility and further exploration of existing research.
In response to this gap, we introduce a comprehensive corpus from 108 native
Castilian Spanish speakers, comprising 55 healthy controls and 53 individuals
diagnosed with PD, all of whom were under pharmacological treatment and
recorded in their medication-optimized state. This unique dataset features a
wide array of speech tasks, including sustained phonation of the five Spanish
vowels, diadochokinetic tests, 16 listen-and-repeat utterances, and free
monologues. The dataset emphasizes accuracy and reliability through specialist
manual transcriptions of the listen-and-repeat tasks and utilizes Whisper for
automated monologue transcriptions, making it the most complete public corpus
of Parkinsonian speech, and the first in Castillian Spanish.
NeuroVoz is composed by 2,903 audio recordings averaging $26.88 \pm 3.35$
recordings per participant, offering a substantial resource for the scientific
exploration of PD's impact on speech. This dataset has already underpinned
several studies, achieving a benchmark accuracy of 89% in PD speech pattern
identification, indicating marked speech alterations attributable to PD.
Despite these advances, the broader challenge of conducting a
language-agnostic, cross-corpora analysis of Parkinsonian speech patterns
remains an open area for future research. This contribution not only fills a
critical void in PD speech analysis resources but also sets a new standard for
the global research community in leveraging speech as a diagnostic tool for
neurodegenerative diseases.
- Abstract(参考訳): 音声分析によるパーキンソン病(PD)診断の進歩は、公開可能な多様な言語データセットの欠如、再現可能性の制限、既存の研究のさらなる探索によって妨げられている。
このギャップに対処するため,カスティーリャ生まれのスペイン語話者108名を対象に,健康管理55名,PDと診断された53名からなる包括的コーパスを導入した。
このユニークなデータセットは5つのスペイン語母音の持続的な発声、ダイアドコキネティックテスト、16のリス・アンド・リピート発話、フリーモノローグを含む幅広い音声タスクを特徴としている。
このデータセットは、リスニング・アンド・リピートタスクの専門的な手作業による書き起こしによって正確性と信頼性を強調し、自動モノローグの書き起こしにwhisperを活用し、パーキンソン語音声の最も完全な公的なコーパスとなり、カスティル語では初めてとなる。
neurovozは1人あたり平均26.88 \pm 3.35$のオーディオ録音2,903曲で構成されており、pdが音声に与える影響を科学的に探究するのにかなりのリソースを提供している。
このデータセットはすでにいくつかの研究を基礎としており、pd音声パターン識別において89%のベンチマーク精度を達成している。
これらの進歩にもかかわらず、パーキンソン病の発話パターンの言語非依存でクロスコーポラ分析を行うという幅広い課題は、将来の研究のためのオープンエリアである。
この貢献は、pd音声分析リソースの批判的な空白を埋めるだけでなく、神経変性疾患の診断ツールとして音声を活用するグローバル研究コミュニティの新たな標準を定めている。
関連論文リスト
- Language-Agnostic Analysis of Speech Depression Detection [2.5764071253486636]
本研究は、英語とマラヤラムの2言語間での自動抑うつ検出を解析する。
CNNモデルは、両言語に焦点をあてて、抑うつに関連する音響的特徴を特定するために訓練される。
その結果,言語に依存しない抑うつ検出システムの開発に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-23T07:35:56Z) - Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Parkinson's disease diagnostics using AI and natural language knowledge
transfer [0.0]
PDと診断された症例における生音声の分類のための深層学習手法を提案する。
対象は, PD患者38名, 健常者10名で, 50歳以上であった。
論文 参考訳(メタデータ) (2022-04-26T19:39:29Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - The Phonetic Footprint of Parkinson's Disease [16.64383793837174]
パーキンソン病(PD)は患者の運動能力に重大な影響を及ぼす。
母音の不安定性、スラリー発音、遅い発声などの特徴パターンは、影響を受けた個人によく見られる。
健常者を対象に訓練した音声認識器を用いて, PDが患者の音声足跡に与える影響について検討した。
論文 参考訳(メタデータ) (2021-12-21T20:44:21Z) - Silent Speech Interfaces for Speech Restoration: A Review [59.68902463890532]
サイレント音声インタフェース (SSI) の研究は、重度音声障害の患者に対して、代替的で拡張的なコミュニケーション方法を提供することを目的としている。
SSIは、コミュニケーションを可能にするために、音声生成中に人体によって生成される非音響バイオシグナーに依存している。
現在、ほとんどのSSIは、健康なユーザーのために実験室でのみ検証されている。
論文 参考訳(メタデータ) (2020-09-04T11:05:50Z) - Detecting Parkinson's Disease From an Online Speech-task [4.968576908394359]
本稿では,世界中のどこでも短時間の音声タスクを記録できるWebベースのフレームワークを構想し,パーキンソン病(PD)のスクリーニングのために記録データを解析する。
対象者は726名(女性262名,女性38%,非女性464名,女性65%,平均年齢61名)であった。
音声データから標準音響特徴(MFCC)、ジッタおよびシマー変種(シマー変種)、および深層学習に基づく特徴を抽出した。
我々のモデルは、制御された実験室で収集されたデータと「野生」でも同様に良好に機能した。
論文 参考訳(メタデータ) (2020-09-02T21:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。