論文の概要: Unveiling Interpretability in Self-Supervised Speech Representations for Parkinson's Diagnosis
- arxiv url: http://arxiv.org/abs/2412.02006v1
- Date: Mon, 02 Dec 2024 22:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:43.320485
- Title: Unveiling Interpretability in Self-Supervised Speech Representations for Parkinson's Diagnosis
- Title(参考訳): パーキンソン病診断における自己教師付き音声表現の解答可能性
- Authors: David Gimeno-Gómez, Catarina Botelho, Anna Pompili, Alberto Abad, Carlos-D. Martínez-Hinarejos,
- Abstract要約: 本稿では,パーキンソン病の診断を支援するための新しい枠組みを提案する。
提案するフレームワークは, 単純かつ効果的なクロスアテンション機構の設計を通じて, 2つの異なる相補的視点から解釈可能性を提供する。
提案手法は最先端の手法と競合すると同時に,言語間シナリオにおける堅牢性も実証する。
- 参考スコア(独自算出の注目度): 9.91077163490596
- License:
- Abstract: Recent works in pathological speech analysis have increasingly relied on powerful self-supervised speech representations, leading to promising results. However, the complex, black-box nature of these embeddings and the limited research on their interpretability significantly restrict their adoption for clinical diagnosis. To address this gap, we propose a novel, interpretable framework specifically designed to support Parkinson's Disease (PD) diagnosis. Through the design of simple yet effective cross-attention mechanisms for both embedding- and temporal-level analysis, the proposed framework offers interpretability from two distinct but complementary perspectives. Experimental findings across five well-established speech benchmarks for PD detection demonstrate the framework's capability to identify meaningful speech patterns within self-supervised representations for a wide range of assessment tasks. Fine-grained temporal analyses further underscore its potential to enhance the interpretability of deep-learning pathological speech models, paving the way for the development of more transparent, trustworthy, and clinically applicable computer-assisted diagnosis systems in this domain. Moreover, in terms of classification accuracy, our method achieves results competitive with state-of-the-art approaches, while also demonstrating robustness in cross-lingual scenarios when applied to spontaneous speech production.
- Abstract(参考訳): 病理的音声分析における最近の研究は、強力な自己教師付き音声表現にますます依存しており、有望な結果をもたらしている。
しかし、これらの埋め込みの複雑なブラックボックスの性質と、その解釈可能性に関する限られた研究は、臨床診断への導入を著しく制限した。
そこで本研究では,パーキンソン病(PD)の診断を支援するための,新しい解釈可能な枠組みを提案する。
組込み・時間レベルの解析を行うための単純かつ効果的なクロスアテンション機構の設計を通じて、提案手法は2つの異なる相補的視点から解釈可能性を提供する。
PD検出のための十分に確立された5つの音声ベンチマークの実験的研究は、幅広い評価タスクのための自己教師付き表現における意味ある音声パターンを識別するフレームワークの能力を実証している。
微粒な時間的分析により、深層学習言語モデルの解釈可能性を高め、この領域でより透明で信頼性があり、臨床応用可能なコンピュータ支援診断システムを開発するための道を開いた。
さらに分類精度の面では,本手法は最先端手法と競合する結果を得るとともに,自然発話生成に適用した場合の言語間シナリオの堅牢性を実証する。
関連論文リスト
- NeuroXVocal: Detection and Explanation of Alzheimer's Disease through Non-invasive Analysis of Picture-prompted Speech [4.815952991777717]
NeuroXVocalは、音声分析によってアルツハイマー病(AD)の可能性を分類し、説明する新しい二重成分システムである。
分類コンポーネント(Neuro)は、音声パターンと音声特徴をキャプチャする音響特徴、音声書き起こしから抽出したテキスト特徴、言語パターンを表す事前計算された埋め込みの3つの異なるデータストリームを処理する。
説明可能性コンポーネント(XVocal)は、大規模言語モデルとAD研究文献のドメイン固有の知識ベースを組み合わせた、検索・拡張生成(RAG)アプローチを実装している。
論文 参考訳(メタデータ) (2025-02-14T12:09:49Z) - Enhancing Depression Detection with Chain-of-Thought Prompting: From Emotion to Reasoning Using Large Language Models [9.43184936918456]
うつ病は世界中で障害の主な原因の1つである。
大規模言語モデルの最近の進歩は、精神的な健康問題に対処する上で有望であることを示している。
そこで本研究では,抑うつ検出の性能と解釈性を両立するChain-of-Thought Prompting手法を提案する。
論文 参考訳(メタデータ) (2025-02-09T12:30:57Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Investigating the Effectiveness of Explainability Methods in Parkinson's Detection from Speech [13.700867213652648]
パーキンソン病(PD)の音声障害は早期診断に重要な指標となる。
音声によるPD検出のモデルは高い性能を示したが、その解釈可能性はまだ未検討である。
本研究は,PD特有の音声特徴を特定するためのいくつかの説明可能性手法を体系的に評価する。
論文 参考訳(メタデータ) (2024-11-12T18:43:27Z) - Selfsupervised learning for pathological speech detection [0.0]
音声生成は、様々な神経変性疾患による影響と破壊を受けやすい。
これらの障害は、異常な発声パターンと不正確な調音を特徴とする病的発声を引き起こす。
ニューロタイプ話者とは異なり、言語障害や障害のある患者は、AlexaやSiriなど、さまざまなバーチャルアシスタントにアクセスできない。
論文 参考訳(メタデータ) (2024-05-16T07:12:47Z) - A Dual-Prompting for Interpretable Mental Health Language Models [11.33857985668663]
CLPsych 2024 Shared Taskは、Large Language Models (LLMs)の解釈可能性を高めることを目的としている。
i) 専門的アイデンティティと自殺辞書をメンタルヘルスに特有なLSMと組み合わせた知識認識型エビデンス抽出法と,(ii) LLMに基づく一貫性評価器を用いた要約手法を提案する。
論文 参考訳(メタデータ) (2024-02-20T06:18:02Z) - Empowering Psychotherapy with Large Language Models: Cognitive
Distortion Detection through Diagnosis of Thought Prompting [82.64015366154884]
本研究では,認知的歪み検出の課題について検討し,思考の早期発見(DoT)を提案する。
DoTは、事実と思考を分離するための主観的評価、思考と矛盾する推論プロセスを引き出すための対照的な推論、認知スキーマを要約するスキーマ分析という3つの段階を通して、患者のスピーチの診断を行う。
実験により、DoTは認知的歪み検出のためのChatGPTよりも大幅に改善され、一方で人間の専門家が承認した高品質な合理性を生成することが示された。
論文 参考訳(メタデータ) (2023-10-11T02:47:21Z) - This Patient Looks Like That Patient: Prototypical Networks for
Interpretable Diagnosis Prediction from Clinical Text [56.32427751440426]
臨床実践においては、そのようなモデルは正確であるだけでなく、医師に解釈可能で有益な結果を与える必要がある。
本稿では,プロトタイプネットワークに基づく新しい手法であるProtoPatientを紹介する。
利用可能な2つの臨床データセット上でモデルを評価し、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-16T10:12:07Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z) - Pose-based Body Language Recognition for Emotion and Psychiatric Symptom
Interpretation [75.3147962600095]
通常のRGBビデオから始まるボディーランゲージに基づく感情認識のための自動フレームワークを提案する。
心理学者との連携により,精神症状予測の枠組みを拡張した。
提案されたフレームワークの特定のアプリケーションドメインは限られた量のデータしか供給しないため、フレームワークは小さなトレーニングセットで動作するように設計されている。
論文 参考訳(メタデータ) (2020-10-30T18:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。