論文の概要: Evaluating the Effectiveness of Pre-Trained Audio Embeddings for Classification of Parkinson's Disease Speech Data
- arxiv url: http://arxiv.org/abs/2506.02078v1
- Date: Mon, 02 Jun 2025 09:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.900173
- Title: Evaluating the Effectiveness of Pre-Trained Audio Embeddings for Classification of Parkinson's Disease Speech Data
- Title(参考訳): パーキンソン病音声データの分類における事前学習オーディオ埋め込みの有効性の評価
- Authors: Emmy Postma, Cristian Tejedor-Garcia,
- Abstract要約: パーキンソン病のバイオマーカーとしての音声障害
ディープアコースティックな特徴はPD分類の可能性を示唆しているが、その効果は話者の違いによってしばしば異なる。
本研究では,PD分類における3つの事前学習オーディオ埋め込みの有効性について検討した。
- 参考スコア(独自算出の注目度): 0.7673339435080445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech impairments are prevalent biomarkers for Parkinson's Disease (PD), motivating the development of diagnostic techniques using speech data for clinical applications. Although deep acoustic features have shown promise for PD classification, their effectiveness often varies due to individual speaker differences, a factor that has not been thoroughly explored in the existing literature. This study investigates the effectiveness of three pre-trained audio embeddings (OpenL3, VGGish and Wav2Vec2.0 models) for PD classification. Using the NeuroVoz dataset, OpenL3 outperforms others in diadochokinesis (DDK) and listen and repeat (LR) tasks, capturing critical acoustic features for PD detection. Only Wav2Vec2.0 shows significant gender bias, achieving more favorable results for male speakers, in DDK tasks. The misclassified cases reveal challenges with atypical speech patterns, highlighting the need for improved feature extraction and model robustness in PD detection.
- Abstract(参考訳): 音声障害はパーキンソン病(PD)の一般的なバイオマーカーであり、臨床応用のための音声データを用いた診断技術の開発を動機付けている。
ディープアコースティックな特徴はPD分類の可能性を示唆しているが、その効果は個々の話者の違いによってしばしば異なり、これは既存の文献では十分に研究されていない要素である。
本研究では,PD分類における3つの事前学習オーディオ埋め込み(OpenL3, VGGish, Wav2Vec2.0モデル)の有効性について検討した。
NeuroVozデータセットを使用することで、OpenL3はDiadochokinesis(DDK)やリスニング・アンド・リピート(LR)タスクで他よりも優れ、PD検出のための重要な音響特性をキャプチャする。
Wav2Vec2.0のみが有意な性別バイアスを示し、DDKタスクにおいて男性話者に好意的な結果をもたらす。
誤分類されたケースは非定型的な音声パターンの課題を明らかにし、PD検出における特徴抽出の改善とモデルロバスト性の必要性を強調している。
関連論文リスト
- Evaluating the Usefulness of Non-Diagnostic Speech Data for Developing Parkinson's Disease Classifiers [5.7624965034085545]
音声に基づくパーキンソン病(PD)の検出は、その自動化、費用対効果、非侵襲性によって注目されている。
本研究は,Turn-Taking データセットを用いて,もともと診断目的で意図されていなかった音声データに基づいて,PD の診断が可能であることを明らかにする。
論文 参考訳(メタデータ) (2025-05-24T14:45:55Z) - Distinguishing Parkinson's Patients Using Voice-Based Feature Extraction and Classification [0.0]
本研究は、パーキンソン病患者の音声特徴の抽出と分類を通じて、健常者からパーキンソン病を区別することに焦点を当てる。
また,3層ニューラルネットワークアーキテクチャの精度を従来の機械学習アルゴリズムと比較した。
論文 参考訳(メタデータ) (2025-01-24T10:44:16Z) - Investigating the Effectiveness of Explainability Methods in Parkinson's Detection from Speech [13.700867213652648]
パーキンソン病(PD)の音声障害は早期診断に重要な指標となる。
音声によるPD検出のモデルは高い性能を示したが、その解釈可能性はまだ未検討である。
本研究は,PD特有の音声特徴を特定するためのいくつかの説明可能性手法を体系的に評価する。
論文 参考訳(メタデータ) (2024-11-12T18:43:27Z) - Early Recognition of Parkinson's Disease Through Acoustic Analysis and Machine Learning [0.0]
パーキンソン病(英: Parkinson's Disease、PD)は、音声を含む運動機能と非運動機能の両方に大きな影響を及ぼす進行性神経変性疾患である。
本稿では,音声データを用いたPD認識手法の総合的なレビューを行い,機械学習とデータ駆動アプローチの進歩を強調した。
ロジスティック回帰、SVM、ニューラルネットワークなど、さまざまな分類アルゴリズムが検討されている。
以上の結果から,特定の音響特性と高度な機械学習技術は,PDと健常者の間で効果的に区別できることが示唆された。
論文 参考訳(メタデータ) (2024-07-22T23:24:02Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Comparative Study of Speech Analysis Methods to Predict Parkinson's
Disease [0.0]
発声障害は、変性する前にこの疾患を検出するために用いられる。
この研究は、PDを予測するための音声特徴と機械学習アプローチを分析する。
全ての音響特性とMFCCを使い、SVMと共に98%の精度で最高の性能を実現した。
論文 参考訳(メタデータ) (2021-11-15T04:29:51Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。