論文の概要: Innovative Speech-Based Deep Learning Approaches for Parkinson's Disease Classification: A Systematic Review
- arxiv url: http://arxiv.org/abs/2407.17844v3
- Date: Fri, 6 Sep 2024 05:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 18:10:23.908715
- Title: Innovative Speech-Based Deep Learning Approaches for Parkinson's Disease Classification: A Systematic Review
- Title(参考訳): パーキンソン病分類のための革新的音声に基づく深層学習アプローチ : 体系的レビュー
- Authors: Lisanne van Gelderen, Cristian Tejedor-García,
- Abstract要約: パーキンソン病(PD)は早期の発声障害を伴うことが多い。
近年のAIの進歩、特に深層学習(DL)は、音声データの解析を通じてPD診断を大幅に強化している。
しかし、研究の進展は、パブリックアクセス可能な音声ベースのPDデータセットの限定的利用によって制限されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parkinson's disease (PD), the second most prevalent neurodegenerative disorder worldwide, frequently presents with early-stage speech impairments. Recent advancements in Artificial Intelligence (AI), particularly deep learning (DL), have significantly enhanced PD diagnosis through the analysis of speech data. Nevertheless, the progress of research is restricted by the limited availability of publicly accessible speech-based PD datasets, primarily due to privacy concerns. The goal of this systematic review is to explore the current landscape of speech-based DL approaches for PD classification, based on 33 scientific works published between January 2020 and March 2024. We discuss their available resources, capabilities, and potential limitations, and issues related to bias, explainability, and privacy. Furthermore, this review provides an overview of publicly accessible speech-based datasets and open-source material for PD. The DL approaches identified are categorized into end-to-end (E2E) learning, transfer learning (TL), and deep acoustic feature extraction (DAFE). Among E2E approaches, Convolutional Neural Networks (CNNs) are prevalent, though Transformers are increasingly popular. E2E approaches face challenges such as limited data and computational resources, especially with Transformers. TL addresses these issues by providing more robust PD diagnosis and better generalizability across languages. DAFE aims to improve the explainability and interpretability of results by examining the specific effects of deep features on both other DL approaches and more traditional machine learning (ML) methods. However, it often underperforms compared to E2E and TL approaches.
- Abstract(参考訳): パーキンソン病(英: Parkinson's disease、PD)は、世界で2番目に多い神経変性疾患である。
近年の人工知能(AI),特に深層学習(DL)の進歩は,音声データの解析を通じてPD診断を大幅に強化している。
それでも研究の進展は、主にプライバシー上の懸念から、広くアクセス可能な音声ベースのPDデータセットの限定的な利用によって制限されている。
この体系的なレビューの目的は、2020年1月から2024年3月までに発行された33の科学的研究に基づいて、PD分類のための音声ベースのDLアプローチの現況を探ることである。
利用可能なリソース、能力、潜在的な制限、バイアス、説明可能性、プライバシーに関する問題について議論する。
さらに、このレビューは、パブリックアクセス可能な音声ベースのデータセットとPDのためのオープンソース資料の概要を提供する。
同定されたDLアプローチは、エンドツーエンド学習(E2E)、転送学習(TL)、深層音響特徴抽出(DAFE)に分類される。
E2Eアプローチの中では、畳み込みニューラルネットワーク(CNN)が一般的だが、トランスフォーマーの人気はますます高まっている。
E2Eアプローチは、特にTransformerにおいて、限られたデータや計算資源といった課題に直面している。
TLは、より堅牢なPD診断と言語間の一般化性を提供することにより、これらの問題に対処する。
DAFEは、他のDLアプローチとより伝統的な機械学習(ML)手法の両方に対する深い特徴の具体的な影響を調べることで、結果の説明可能性と解釈可能性を改善することを目的としている。
しかし、E2E や TL に比べて性能が劣ることが多い。
関連論文リスト
- Early Recognition of Parkinson's Disease Through Acoustic Analysis and Machine Learning [0.0]
パーキンソン病(英: Parkinson's Disease、PD)は、音声を含む運動機能と非運動機能の両方に大きな影響を及ぼす進行性神経変性疾患である。
本稿では,音声データを用いたPD認識手法の総合的なレビューを行い,機械学習とデータ駆動アプローチの進歩を強調した。
ロジスティック回帰、SVM、ニューラルネットワークなど、さまざまな分類アルゴリズムが検討されている。
以上の結果から,特定の音響特性と高度な機械学習技術は,PDと健常者の間で効果的に区別できることが示唆された。
論文 参考訳(メタデータ) (2024-07-22T23:24:02Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Evaluating Large Language Models for Radiology Natural Language
Processing [68.98847776913381]
大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。
本研究は, 放射線学報告の解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2023-07-25T17:57:18Z) - Deep Grading based on Collective Artificial Intelligence for AD
Diagnosis and Prognosis [0.0]
アルツハイマー病の診断と予後を自動化するための新しい枠組みを提案する。
フレームワークは2つの段階から構成される。第1段階では,意味のある特徴を抽出するための深い階調モデルを提案する。
第2段階では、ADシグネチャをよりよくキャプチャするために、グラフ畳み込みニューラルネットワークを使用します。
論文 参考訳(メタデータ) (2022-11-28T09:59:08Z) - Toward a Neural Semantic Parsing System for EHR Question Answering [7.784753717089568]
臨床意味解析(SP)は、自然言語クエリから必要な正確な情報を特定するための重要なステップである。
ニューラルSPの最近の進歩は、人間の努力を伴わずに、堅牢で柔軟なセマンティックレキシコンを構築することを約束している。
論文 参考訳(メタデータ) (2022-11-08T21:36:22Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - GPT-D: Inducing Dementia-related Linguistic Anomalies by Deliberate
Degradation of Artificial Neural Language Models [7.8430387435520625]
一般英語テキストで事前学習したTransformer DLモデル(GPT-2)を,人工劣化版(GPT-D)と組み合わせて提案する手法を提案する。
この手法は、広く使われている「Cookie Theft」画像記述タスクから得られたテキストデータに対する最先端のパフォーマンスにアプローチする。
本研究は, 生成型ニューラル言語モデルの内部動作, 生成する言語, 認知症が人間の発話や言語特性に与える影響について, より深く理解するためのステップである。
論文 参考訳(メタデータ) (2022-03-25T00:25:42Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Uncovering the structure of clinical EEG signals with self-supervised
learning [64.4754948595556]
教師付き学習パラダイムは、しばしば利用可能なラベル付きデータの量によって制限される。
この現象は脳波(EEG)などの臨床関連データに特に問題となる。
ラベルのないデータから情報を抽出することで、ディープニューラルネットワークとの競合性能に到達することができるかもしれない。
論文 参考訳(メタデータ) (2020-07-31T14:34:47Z) - To BERT or Not To BERT: Comparing Speech and Language-based Approaches
for Alzheimer's Disease Detection [17.99855227184379]
自然言語処理と機械学習はアルツハイマー病(AD)を確実に検出するための有望な技術を提供する
最近のADReSSチャレンジデータセットにおいて、AD検出のための2つのアプローチのパフォーマンスを比較し、比較する。
認知障害検出における言語学の重要性を考えると,細調整BERTモデルはAD検出タスクにおいて特徴に基づくアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-07-26T04:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。