Fugu-MT 論文翻訳(概要): Innovative Speech-Based Deep Learning Approaches for Parkinson's Disease Classification: A Systematic Review

論文の概要: Innovative Speech-Based Deep Learning Approaches for Parkinson's Disease Classification: A Systematic Review

arxiv url: http://arxiv.org/abs/2407.17844v3
Date: Fri, 6 Sep 2024 05:29:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-09 18:10:23.908715
Title: Innovative Speech-Based Deep Learning Approaches for Parkinson's Disease Classification: A Systematic Review
Title（参考訳）: パーキンソン病分類のための革新的音声に基づく深層学習アプローチ : 体系的レビュー
Authors: Lisanne van Gelderen, Cristian Tejedor-García,
Abstract要約: パーキンソン病(PD)は早期の発声障害を伴うことが多い。近年のAIの進歩、特に深層学習(DL)は、音声データの解析を通じてPD診断を大幅に強化している。しかし、研究の進展は、パブリックアクセス可能な音声ベースのPDデータセットの限定的利用によって制限されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Parkinson's disease (PD), the second most prevalent neurodegenerative disorder worldwide, frequently presents with early-stage speech impairments. Recent advancements in Artificial Intelligence (AI), particularly deep learning (DL), have significantly enhanced PD diagnosis through the analysis of speech data. Nevertheless, the progress of research is restricted by the limited availability of publicly accessible speech-based PD datasets, primarily due to privacy concerns. The goal of this systematic review is to explore the current landscape of speech-based DL approaches for PD classification, based on 33 scientific works published between January 2020 and March 2024. We discuss their available resources, capabilities, and potential limitations, and issues related to bias, explainability, and privacy. Furthermore, this review provides an overview of publicly accessible speech-based datasets and open-source material for PD. The DL approaches identified are categorized into end-to-end (E2E) learning, transfer learning (TL), and deep acoustic feature extraction (DAFE). Among E2E approaches, Convolutional Neural Networks (CNNs) are prevalent, though Transformers are increasingly popular. E2E approaches face challenges such as limited data and computational resources, especially with Transformers. TL addresses these issues by providing more robust PD diagnosis and better generalizability across languages. DAFE aims to improve the explainability and interpretability of results by examining the specific effects of deep features on both other DL approaches and more traditional machine learning (ML) methods. However, it often underperforms compared to E2E and TL approaches.
Abstract（参考訳）: パーキンソン病(英: Parkinson's disease、PD)は、世界で2番目に多い神経変性疾患である。近年の人工知能(AI),特に深層学習(DL)の進歩は,音声データの解析を通じてPD診断を大幅に強化している。それでも研究の進展は、主にプライバシー上の懸念から、広くアクセス可能な音声ベースのPDデータセットの限定的な利用によって制限されている。この体系的なレビューの目的は、2020年1月から2024年3月までに発行された33の科学的研究に基づいて、PD分類のための音声ベースのDLアプローチの現況を探ることである。利用可能なリソース、能力、潜在的な制限、バイアス、説明可能性、プライバシーに関する問題について議論する。さらに、このレビューは、パブリックアクセス可能な音声ベースのデータセットとPDのためのオープンソース資料の概要を提供する。同定されたDLアプローチは、エンドツーエンド学習(E2E)、転送学習(TL)、深層音響特徴抽出(DAFE)に分類される。 E2Eアプローチの中では、畳み込みニューラルネットワーク(CNN)が一般的だが、トランスフォーマーの人気はますます高まっている。 E2Eアプローチは、特にTransformerにおいて、限られたデータや計算資源といった課題に直面している。 TLは、より堅牢なPD診断と言語間の一般化性を提供することにより、これらの問題に対処する。 DAFEは、他のDLアプローチとより伝統的な機械学習(ML)手法の両方に対する深い特徴の具体的な影響を調べることで、結果の説明可能性と解釈可能性を改善することを目的としている。しかし、E2E や TL に比べて性能が劣ることが多い。

関連論文リスト

NEARL-CLIP: Interacted Query Adaptation with Orthogonal Regularization for Medical Vision-Language Understanding [51.63264715941068]
textbfNEARL-CLIP (iunderlineNteracted quunderlineEry underlineAdaptation with ounderlineRthogonaunderlineL regularization)は、VLMベースの新しい相互モダリティ相互作用フレームワークである。
論文参考訳（メタデータ） (2025-08-06T05:44:01Z)
CodeBrain: Towards Decoupled Interpretability and Multi-Scale Architecture for EEG Foundation Model [52.466542039411515]
EEGファウンデーションモデル(EFM)は、タスク固有のモデルのスケーラビリティ問題に対処するために登場した。このギャップを埋めるために設計された2段階のEMFであるCodeBrainを紹介します。第1段階では、異種時間・周波数の脳波信号を離散トークンに分解するTFDual-Tokenizerを導入する。第2段階では、構造化されたグローバル畳み込みとスライディングウインドウの注意を結合したマルチスケールEEGSSMアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-06-10T17:20:39Z)
Evaluating the Effectiveness of Pre-Trained Audio Embeddings for Classification of Parkinson's Disease Speech Data [0.7673339435080445]
パーキンソン病のバイオマーカーとしての音声障害ディープアコースティックな特徴はPD分類の可能性を示唆しているが、その効果は話者の違いによってしばしば異なる。本研究では,PD分類における3つの事前学習オーディオ埋め込みの有効性について検討した。
論文参考訳（メタデータ） (2025-06-02T09:32:54Z)
BenSParX: A Robust Explainable Machine Learning Framework for Parkinson's Disease Detection from Bengali Conversational Speech [0.7623426349237178]
パーキンソン病(PD)は世界的な健康問題を引き起こし、バングラデシュではPD死亡率が顕著に上昇している。 PD検出のための最初のベンガル会話音声データセットであるBenSparXについて述べる。また、早期診断に適した堅牢で説明可能な機械学習フレームワークも提示する。
論文参考訳（メタデータ） (2025-05-18T01:58:36Z)
A Methodological and Structural Review of Parkinsons Disease Detection Across Diverse Data Modalities [0.6827423171182153]
日本タイムズとパーキンソン財団の報道によると、全世界で1000人あたり1～1.8人が診断された。本研究では,多種多様なデータモダリティを対象としたPD認識システムについて概説する。本稿では,主要な科学データベースからの347以上の論文に基づいて,データ収集手法,設定,特徴表現,システム性能などの重要な側面について考察する。
論文参考訳（メタデータ） (2025-05-01T13:47:45Z)
Advanced Deep Learning and Large Language Models: Comprehensive Insights for Cancer Detection [5.428095624923599]
深層学習(DL)は、特にがんの検出と診断において医療を変革した。医療におけるDLに関する多くのレビューにもかかわらず、がん検出におけるその役割に関する包括的な分析は依然として限られている。本稿では、トランスファーラーニング(TL)、強化学習(RL)、フェデレーションラーニング(FL)、トランスフォーマー(Transformer)、大規模言語モデル(LLMs)などの先進的なDL手法を見直し、これらのギャップに対処する。
論文参考訳（メタデータ） (2025-03-30T15:17:40Z)
Dementia Insights: A Context-Based MultiModal Approach [0.3749861135832073]
早期発見は、病気の進行を遅らせる可能性のあるタイムリーな介入に不可欠である。テキストと音声のための大規模事前学習モデル(LPM)は、認知障害の識別において有望であることを示している。本研究は,テキストデータと音声データを最高の性能のLPMを用いて統合する,コンテキストベースのマルチモーダル手法を提案する。
論文参考訳（メタデータ） (2025-03-03T06:46:26Z)
Devising a Set of Compact and Explainable Spoken Language Feature for Screening Alzheimer's Disease [52.46922921214341]
アルツハイマー病(AD)は高齢化社会において最も重要な健康問題の一つとなっている。我々は,大言語モデル(LLM)とTF-IDFモデルの視覚的機能を活用する,説明可能な効果的な機能セットを考案した。当社の新機能は、自動ADスクリーニングの解釈可能性を高めるステップバイステップで説明し、解釈することができる。
論文参考訳（メタデータ） (2024-11-28T05:23:22Z)
FOCUS: Knowledge-enhanced Adaptive Visual Compression for Few-shot Whole Slide Image Classification [4.148491257542209]
少ないショット学習は、計算病理学における癌診断の重要な解決策である。このパラダイムにおける重要な課題は、スライド画像全体(WSI)の限られたトレーニングセットと膨大な数のパッチとの間の固有の相違に起因する。我々は、診断関連領域の集中分析を可能にするために、知識強化型適応型視覚圧縮フレームワーク、FOCUSを紹介した。
論文参考訳（メタデータ） (2024-11-22T05:36:38Z)
Latent Paraphrasing: Perturbation on Layers Improves Knowledge Injection in Language Models [54.385486006684495]
LaPaelは、初期大規模言語モデル層に入力依存ノイズを適用する潜在レベルパラフレーズ法である。質問応答ベンチマーク実験により、LaPaelは、標準的な微調整および既存のノイズベースアプローチよりも知識注入を改善することを示した。
論文参考訳（メタデータ） (2024-11-01T15:47:05Z)
A Review of Deep Learning Approaches for Non-Invasive Cognitive Impairment Detection [35.31259047578382]
本稿では,非侵襲的認知障害検出のためのディープラーニング手法の最近の進歩を概説する。音声や言語,顔,運動運動など,認知低下の非侵襲的指標について検討した。著しい進歩にもかかわらず、データ標準化とアクセシビリティ、モデル説明可能性、縦断解析の限界、臨床適応などいくつかの課題が残っている。
論文参考訳（メタデータ） (2024-10-25T17:44:59Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Early Recognition of Parkinson's Disease Through Acoustic Analysis and Machine Learning [0.0]
パーキンソン病(英: Parkinson's Disease、PD)は、音声を含む運動機能と非運動機能の両方に大きな影響を及ぼす進行性神経変性疾患である。本稿では,音声データを用いたPD認識手法の総合的なレビューを行い,機械学習とデータ駆動アプローチの進歩を強調した。ロジスティック回帰、SVM、ニューラルネットワークなど、さまざまな分類アルゴリズムが検討されている。以上の結果から,特定の音響特性と高度な機械学習技術は,PDと健常者の間で効果的に区別できることが示唆された。
論文参考訳（メタデータ） (2024-07-22T23:24:02Z)
Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。時間間隔推定を組み込んだ拡散モデルである。我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文参考訳（メタデータ） (2024-06-20T02:20:23Z)
Synthetic Data Generation Techniques for Developing AI-based Speech Assessments for Parkinson's Disease (A Comparative Study) [0.0]
パーキンソン病(PD)における言語・言語の変化医師はAI(AI)の進歩のおかげで、AIベースの音声アセスメントを利用してPDを見つけることができる
論文参考訳（メタデータ） (2023-12-04T03:12:09Z)
Evaluating Large Language Models for Radiology Natural Language Processing [68.98847776913381]
大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。本研究は, 放射線学報告の解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。
論文参考訳（メタデータ） (2023-07-25T17:57:18Z)
GDPR Compliant Collection of Therapist-Patient-Dialogues [48.091760741427656]
我々は、欧州連合の一般データプライバシ規則の下で、精神医学クリニックでセラピストと患者との対話の収集を始める際に直面した課題について詳しく述べる。本稿では、手順の各ステップの概要を述べ、この分野でのさらなる研究を動機付ける潜在的な落とし穴を指摘した。
論文参考訳（メタデータ） (2022-11-22T15:51:10Z)
Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文参考訳（メタデータ） (2022-06-15T07:20:28Z)
GPT-D: Inducing Dementia-related Linguistic Anomalies by Deliberate Degradation of Artificial Neural Language Models [7.8430387435520625]
一般英語テキストで事前学習したTransformer DLモデル(GPT-2)を,人工劣化版(GPT-D)と組み合わせて提案する手法を提案する。この手法は、広く使われている「Cookie Theft」画像記述タスクから得られたテキストデータに対する最先端のパフォーマンスにアプローチする。本研究は, 生成型ニューラル言語モデルの内部動作, 生成する言語, 認知症が人間の発話や言語特性に与える影響について, より深く理解するためのステップである。
論文参考訳（メタデータ） (2022-03-25T00:25:42Z)
Investigation of Data Augmentation Techniques for Disordered Speech Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。正常な音声と無秩序な音声の両方が増強過程に利用された。 UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文参考訳（メタデータ） (2022-01-14T17:09:22Z)
Uncovering the structure of clinical EEG signals with self-supervised learning [64.4754948595556]
教師付き学習パラダイムは、しばしば利用可能なラベル付きデータの量によって制限される。この現象は脳波(EEG)などの臨床関連データに特に問題となる。ラベルのないデータから情報を抽出することで、ディープニューラルネットワークとの競合性能に到達することができるかもしれない。
論文参考訳（メタデータ） (2020-07-31T14:34:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。