論文の概要: BenSParX: A Robust Explainable Machine Learning Framework for Parkinson's Disease Detection from Bengali Conversational Speech
- arxiv url: http://arxiv.org/abs/2505.12192v1
- Date: Sun, 18 May 2025 01:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.084954
- Title: BenSParX: A Robust Explainable Machine Learning Framework for Parkinson's Disease Detection from Bengali Conversational Speech
- Title(参考訳): BenSParX: ベンガル会話音声からのパーキンソン病検出のためのロバストな説明可能な機械学習フレームワーク
- Authors: Riad Hossain, Muhammad Ashad Kabir, Arat Ibne Golam Mowla, Animesh Chandra Roy, Ranjit Kumar Ghosh,
- Abstract要約: パーキンソン病(PD)は世界的な健康問題を引き起こし、バングラデシュではPD死亡率が顕著に上昇している。
PD検出のための最初のベンガル会話音声データセットであるBenSparXについて述べる。
また、早期診断に適した堅牢で説明可能な機械学習フレームワークも提示する。
- 参考スコア(独自算出の注目度): 0.7623426349237178
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Parkinson's disease (PD) poses a growing global health challenge, with Bangladesh experiencing a notable rise in PD-related mortality. Early detection of PD remains particularly challenging in resource-constrained settings, where voice-based analysis has emerged as a promising non-invasive and cost-effective alternative. However, existing studies predominantly focus on English or other major languages; notably, no voice dataset for PD exists for Bengali - posing a significant barrier to culturally inclusive and accessible healthcare solutions. Moreover, most prior studies employed only a narrow set of acoustic features, with limited or no hyperparameter tuning and feature selection strategies, and little attention to model explainability. This restricts the development of a robust and generalizable machine learning model. To address this gap, we present BenSparX, the first Bengali conversational speech dataset for PD detection, along with a robust and explainable machine learning framework tailored for early diagnosis. The proposed framework incorporates diverse acoustic feature categories, systematic feature selection methods, and state-of-the-art machine learning algorithms with extensive hyperparameter optimization. Furthermore, to enhance interpretability and trust in model predictions, the framework incorporates SHAP (SHapley Additive exPlanations) analysis to quantify the contribution of individual acoustic features toward PD detection. Our framework achieves state-of-the-art performance, yielding an accuracy of 95.77%, F1 score of 95.57%, and AUC-ROC of 0.982. We further externally validated our approach by applying the framework to existing PD datasets in other languages, where it consistently outperforms state-of-the-art approaches. To facilitate further research and reproducibility, the dataset has been made publicly available at https://github.com/Riad071/BenSParX.
- Abstract(参考訳): パーキンソン病(PD)は世界的な健康問題を引き起こし、バングラデシュはPD関連死亡率の顕著な上昇を経験している。
音声に基づく分析は、非侵襲的で費用対効果の高い代替手段として期待されている。
しかし、既存の研究は主に英語や他の主要言語に焦点を当てており、特にベンガル語のための音声データセットは存在しない。
さらに、ほとんどの先行研究は限られた音響的特徴のみを用いており、過度パラメータチューニングと特徴選択戦略は限定的あるいは全くなく、モデル説明可能性にはほとんど注意を払わなかった。
これにより、堅牢で一般化可能な機械学習モデルの開発が制限される。
このギャップに対処するために、我々は、PD検出のための最初のベンガル会話音声データセットであるBenSparXと、早期診断に適した堅牢で説明可能な機械学習フレームワークを提示する。
提案フレームワークは,多種多様な音響特徴カテゴリ,系統的特徴選択方法,および広範囲なハイパーパラメータ最適化を伴う最先端の機械学習アルゴリズムを含む。
さらに、解釈可能性の向上とモデル予測の信頼性向上を目的として、SHAP分析を取り入れ、個々の音響特性のPD検出への寄与を定量化する。
我々のフレームワークは最先端の性能を達成し、精度は95.77%、F1スコアは95.57%、AUC-ROCは0.982である。
我々は、他の言語の既存のPDデータセットにフレームワークを適用することで、我々のアプローチをさらに外部的に検証した。
さらなる研究と再現性を促進するため、データセットはhttps://github.com/Riad071/BenSParXで公開されている。
関連論文リスト
- Dementia Insights: A Context-Based MultiModal Approach [0.3749861135832073]
早期発見は、病気の進行を遅らせる可能性のあるタイムリーな介入に不可欠である。
テキストと音声のための大規模事前学習モデル(LPM)は、認知障害の識別において有望であることを示している。
本研究は,テキストデータと音声データを最高の性能のLPMを用いて統合する,コンテキストベースのマルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2025-03-03T06:46:26Z) - NeuroXVocal: Detection and Explanation of Alzheimer's Disease through Non-invasive Analysis of Picture-prompted Speech [4.815952991777717]
NeuroXVocalは、音声分析によってアルツハイマー病(AD)の可能性を分類し、説明する新しい二重成分システムである。
分類コンポーネント(Neuro)は、音声パターンと音声特徴をキャプチャする音響特徴、音声書き起こしから抽出したテキスト特徴、言語パターンを表す事前計算された埋め込みの3つの異なるデータストリームを処理する。
説明可能性コンポーネント(XVocal)は、大規模言語モデルとAD研究文献のドメイン固有の知識ベースを組み合わせた、検索・拡張生成(RAG)アプローチを実装している。
論文 参考訳(メタデータ) (2025-02-14T12:09:49Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Differential privacy enables fair and accurate AI-based analysis of speech disorders while protecting patient data [10.6135892856374]
本研究は,ディファレンシャルプライバシ(DP)が病的音声データに与える影響を初めて調べたものである。
プライバシーレベルの高いDPのトレーニングでは,最大3.85%の精度低下が観察された。
言語や障害にまたがる知見を一般化するため,スペイン語を話すパーキンソン病患者のデータセットに対するアプローチを検証した。
論文 参考訳(メタデータ) (2024-09-27T18:25:54Z) - Early Recognition of Parkinson's Disease Through Acoustic Analysis and Machine Learning [0.0]
パーキンソン病(英: Parkinson's Disease、PD)は、音声を含む運動機能と非運動機能の両方に大きな影響を及ぼす進行性神経変性疾患である。
本稿では,音声データを用いたPD認識手法の総合的なレビューを行い,機械学習とデータ駆動アプローチの進歩を強調した。
ロジスティック回帰、SVM、ニューラルネットワークなど、さまざまな分類アルゴリズムが検討されている。
以上の結果から,特定の音響特性と高度な機械学習技術は,PDと健常者の間で効果的に区別できることが示唆された。
論文 参考訳(メタデータ) (2024-07-22T23:24:02Z) - A Novel Fusion Architecture for PD Detection Using Semi-Supervised Speech Embeddings [8.996456485141069]
本稿では,パーキンソン病(PD)をWebアプリケーションを用いて収集した英語パングラム発話音声を通して認識する枠組みを提案する。
我々のデータセットには、PDと診断された392人を含む1306人の世界的コホートが含まれている。
We used deep learning embeddeds derived from semi-supervised model, Wav2Vec 2.0, WavLM, ImageBind represented the speech dynamics associated with PD。
論文 参考訳(メタデータ) (2024-05-21T16:06:51Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Automatic diagnosis of knee osteoarthritis severity using Swin
transformer [55.01037422579516]
変形性膝関節症 (KOA) は膝関節の慢性的な痛みと硬直を引き起こす疾患である。
我々は,Swin Transformer を用いて KOA の重大度を予測する自動手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T09:49:30Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。