論文の概要: Comparative Study of Speech Analysis Methods to Predict Parkinson's
Disease
- arxiv url: http://arxiv.org/abs/2111.10207v1
- Date: Mon, 15 Nov 2021 04:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-28 18:11:39.328515
- Title: Comparative Study of Speech Analysis Methods to Predict Parkinson's
Disease
- Title(参考訳): パーキンソン病予測のための音声分析法の比較検討
- Authors: Adedolapo Aishat Toye and Suryaprakash Kompalli
- Abstract要約: 発声障害は、変性する前にこの疾患を検出するために用いられる。
この研究は、PDを予測するための音声特徴と機械学習アプローチを分析する。
全ての音響特性とMFCCを使い、SVMと共に98%の精度で最高の性能を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the symptoms observed in the early stages of Parkinson's Disease (PD)
is speech impairment. Speech disorders can be used to detect this disease
before it degenerates. This work analyzes speech features and machine learning
approaches to predict PD. Acoustic features such as shimmer and jitter
variants, and Mel Frequency Cepstral Coefficients (MFCC) are extracted from
speech signals. We use two datasets in this work: the MDVR-KCL and the Italian
Parkinson's Voice and Speech database. To separate PD and non-PD speech
signals, seven classification models were implemented: K-Nearest Neighbor,
Decision Trees, Support Vector Machines, Naive Bayes, Logistic Regression,
Gradient Boosting, Random Forests. Three feature sets were used for each of the
models: (a) Acoustic features only, (b) All the acoustic features and MFCC, (c)
Selected subset of features from acoustic features and MFCC. Using all the
acoustic features and MFCC, together with SVM produced the highest performance
with an accuracy of 98% and F1-Score of 99%. When compared with prior art, this
shows a better performance. Our code and related documentation is available in
a public domain repository.
- Abstract(参考訳): パーキンソン病(pd)の早期にみられた症状の1つは、言語障害である。
発声障害は変性する前にこの疾患を検出するために用いられる。
この研究は、PDを予測するための音声特徴と機械学習アプローチを分析する。
音声信号からシマーやジッタの変種やメル周波数ケプストラル係数(MFCC)などの音響特性を抽出する。
本研究では,MDVR-KCLとイタリアのParkinson's Voice and Speechデータベースの2つのデータセットを用いた。
pdと非pd音声信号を分離するために、k-nearest近傍、決定木、サポートベクターマシン、ナイーブベイ、ロジスティック回帰、勾配ブースティング、ランダムフォレストという7つの分類モデルが実装された。
それぞれのモデルに3つの特徴セットが使用された。
(a)音響的特徴のみ。
(b)すべての音響的特徴とmfcc
(c)音響特徴とMFCCから特徴のサブセットを選択する。
全ての音響特性とMFCCを使い、SVMと共に98%、F1スコア99%の精度で最高のパフォーマンスを実現した。
先行技術と比較すると、パフォーマンスが向上します。
私たちのコードと関連するドキュメントは、パブリックドメインリポジトリから入手できます。
関連論文リスト
- The Unreliability of Acoustic Systems in Alzheimer's Speech Datasets with Heterogeneous Recording Conditions [11.00082412847855]
MFCC と Wav2vec 2.0 の2つの音響特性に基づくシステムにより,AD 患者を上向きの性能制御から識別できることが示されている。
本研究は,非標準化記録に基づく患者同定のための音響システムの使用に対する警告である。
論文 参考訳(メタデータ) (2024-09-11T20:50:45Z) - Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders [0.8437187555622164]
DAAMAudioCNNLSTMとDAAMAudioTransformerを導入する。
両モデルとも、抑うつ検出に音声信号を利用する際の重要な説明可能性と効率は、より信頼性が高く、臨床的に有用な診断ツールへの飛躍を表している。
論文 参考訳(メタデータ) (2024-08-31T08:50:28Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - Alzheimer's Dementia Recognition Using Acoustic, Lexical, Disfluency and
Speech Pause Features Robust to Noisy Inputs [11.34426502082293]
本稿では, 話者がアルツハイマー病を患っているか否かを分類するために, ASR で書き起こされた音声と音響データを同時に消費する2つの多モード融合型深層学習モデルを提案する。
我々の最良モデルである、単語、単語確率、拡散特性、ポーズ情報、および様々な音響特徴を用いたハイウェイ層付きBiLSTMは、MMSE認知スコアに対して84%の精度とRSME誤差予測を4.26の精度で達成する。
論文 参考訳(メタデータ) (2021-06-29T19:24:29Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Adaptive Multi-View ICA: Estimation of noise levels for optimal
inference [65.94843987207445]
Adaptive MultiView ICA (AVICA) はノイズの多いICAモデルであり、各ビューは共有された独立したソースと付加的なノイズの線形混合である。
AVICAは、その明示的なMMSE推定器により、他のICA法よりも優れたソース推定値が得られる。
実脳磁図(MEG)データでは,分解がサンプリングノイズに対する感度が低く,ノイズ分散推定が生物学的に妥当であることを示す。
論文 参考訳(メタデータ) (2021-02-22T13:10:12Z) - Detecting Parkinson's Disease From an Online Speech-task [4.968576908394359]
本稿では,世界中のどこでも短時間の音声タスクを記録できるWebベースのフレームワークを構想し,パーキンソン病(PD)のスクリーニングのために記録データを解析する。
対象者は726名(女性262名,女性38%,非女性464名,女性65%,平均年齢61名)であった。
音声データから標準音響特徴(MFCC)、ジッタおよびシマー変種(シマー変種)、および深層学習に基づく特徴を抽出した。
我々のモデルは、制御された実験室で収集されたデータと「野生」でも同様に良好に機能した。
論文 参考訳(メタデータ) (2020-09-02T21:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。