Fugu-MT 論文翻訳(概要): Unveiling Interpretability in Self-Supervised Speech Representations for Parkinson's Diagnosis

論文の概要: Unveiling Interpretability in Self-Supervised Speech Representations for Parkinson's Diagnosis

arxiv url: http://arxiv.org/abs/2412.02006v1
Date: Mon, 02 Dec 2024 22:23:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.795974
Title: Unveiling Interpretability in Self-Supervised Speech Representations for Parkinson's Diagnosis
Title（参考訳）: パーキンソン病診断における自己教師付き音声表現の解答可能性
Authors: David Gimeno-Gómez, Catarina Botelho, Anna Pompili, Alberto Abad, Carlos-D. Martínez-Hinarejos,
Abstract要約: 本稿では,パーキンソン病の診断を支援するための新しい枠組みを提案する。提案するフレームワークは, 単純かつ効果的なクロスアテンション機構の設計を通じて, 2つの異なる相補的視点から解釈可能性を提供する。提案手法は最先端の手法と競合すると同時に,言語間シナリオにおける堅牢性も実証する。
参考スコア（独自算出の注目度）: 9.91077163490596
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent works in pathological speech analysis have increasingly relied on powerful self-supervised speech representations, leading to promising results. However, the complex, black-box nature of these embeddings and the limited research on their interpretability significantly restrict their adoption for clinical diagnosis. To address this gap, we propose a novel, interpretable framework specifically designed to support Parkinson's Disease (PD) diagnosis. Through the design of simple yet effective cross-attention mechanisms for both embedding- and temporal-level analysis, the proposed framework offers interpretability from two distinct but complementary perspectives. Experimental findings across five well-established speech benchmarks for PD detection demonstrate the framework's capability to identify meaningful speech patterns within self-supervised representations for a wide range of assessment tasks. Fine-grained temporal analyses further underscore its potential to enhance the interpretability of deep-learning pathological speech models, paving the way for the development of more transparent, trustworthy, and clinically applicable computer-assisted diagnosis systems in this domain. Moreover, in terms of classification accuracy, our method achieves results competitive with state-of-the-art approaches, while also demonstrating robustness in cross-lingual scenarios when applied to spontaneous speech production.
Abstract（参考訳）: 病理的音声分析における最近の研究は、強力な自己教師付き音声表現にますます依存しており、有望な結果をもたらしている。しかし、これらの埋め込みの複雑なブラックボックスの性質と、その解釈可能性に関する限られた研究は、臨床診断への導入を著しく制限した。そこで本研究では,パーキンソン病(PD)の診断を支援するための,新しい解釈可能な枠組みを提案する。組込み・時間レベルの解析を行うための単純かつ効果的なクロスアテンション機構の設計を通じて、提案手法は2つの異なる相補的視点から解釈可能性を提供する。 PD検出のための十分に確立された5つの音声ベンチマークの実験的研究は、幅広い評価タスクのための自己教師付き表現における意味ある音声パターンを識別するフレームワークの能力を実証している。微粒な時間的分析により、深層学習言語モデルの解釈可能性を高め、この領域でより透明で信頼性があり、臨床応用可能なコンピュータ支援診断システムを開発するための道を開いた。さらに分類精度の面では,本手法は最先端手法と競合する結果を得るとともに,自然発話生成に適用した場合の言語間シナリオの堅牢性を実証する。

関連論文リスト

Lyapunov Spectral Analysis of Speech Embedding Trajectories in Psychosis [63.56564189749175]
精神病患者と健常者を対象に, 音声の埋め込みを構造化された臨床インタビューから分析した。 Lyapunov exponent (LE) スペクトルは、単語レベルと回答レベルの埋め込みから計算される。
論文参考訳（メタデータ） (2026-02-18T08:46:46Z)
AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文参考訳（メタデータ） (2026-01-23T11:59:13Z)
Ensemble Deep Learning and LLM-Assisted Reporting for Automated Skin Lesion Diagnosis [2.9307254086347427]
皮膚科診断のためのAI統合を再定義する統合フレームワークを導入する。第一に、アーキテクチャ的に多様である畳み込みニューラルネットワークの目的的にヘテロジニアスなアンサンブルは、相補的な診断の視点を提供する。第2に、診断ワークフローに直接大きな言語モデル機能を組み込んで、分類出力を臨床的に意味のある評価に変換する。
論文参考訳（メタデータ） (2025-10-05T08:07:33Z)
Interpretable Neuropsychiatric Diagnosis via Concept-Guided Graph Neural Networks [56.75602443936853]
青少年の5人に1人は、不安、うつ病、行動障害などの精神状態または行動の健康状態と診断されている。従来の研究では、障害予測にグラフニューラルネットワーク(GNN)アプローチを使用していたが、ブラックボックスのままであり、信頼性と臨床翻訳を制限している。本研究では,解釈可能な機能接続の概念を符号化する概念に基づく診断フレームワークを提案する。我々の設計は臨床的に意味のある接続パターンを通じて予測を保証し、解釈可能性と強い予測性能の両方を可能にする。
論文参考訳（メタデータ） (2025-10-02T19:38:46Z)
Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。本稿は、この新興分野に関する最初の体系的なレビューを提供する。本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文参考訳（メタデータ） (2025-08-01T14:41:31Z)
RECA-PD: A Robust Explainable Cross-Attention Method for Speech-based Parkinson's Disease Classification [0.8499685241219366]
パーキンソン病(PD)は全世界で1000万人以上の人に影響を与えており、言語障害はしばしば長年の運動症状に先行している。近年のディープラーニングモデルは高い精度を達成するが、一般的に臨床応用に必要な説明能力は欠如している。本稿では,解釈可能な音声特徴と自己教師付き表現を組み合わせた,新規で堅牢で説明可能なクロスアテンションアーキテクチャであるRECA-PDを提案する。
論文参考訳（メタデータ） (2025-07-04T14:05:47Z)
Test-Time-Scaling for Zero-Shot Diagnosis with Visual-Language Reasoning [37.37330596550283]
視覚言語モデルを用いた信頼性のある医用画像診断のためのフレームワークを提案する。テストタイムスケーリング戦略は、複数の候補出力を信頼性のある最終診断に集約する。様々な医用画像モダリティにまたがるアプローチを評価する。
論文参考訳（メタデータ） (2025-06-11T22:23:38Z)
Secure Diagnostics: Adversarial Robustness Meets Clinical Interpretability [9.522045116604358]
医用画像分類のためのディープニューラルネットワークは、臨床実践において一貫して一般化することができないことが多い。本稿では, フラクチャー検出のために微調整された深部ニューラルネットワークの解釈可能性について, 対向攻撃に対するモデル性能の評価により検討する。
論文参考訳（メタデータ） (2025-04-07T20:26:02Z)
NeuroXVocal: Detection and Explanation of Alzheimer's Disease through Non-invasive Analysis of Picture-prompted Speech [4.815952991777717]
NeuroXVocalは、音声分析によってアルツハイマー病(AD)の可能性を分類し、説明する新しい二重成分システムである。分類コンポーネント(Neuro)は、音声パターンと音声特徴をキャプチャする音響特徴、音声書き起こしから抽出したテキスト特徴、言語パターンを表す事前計算された埋め込みの3つの異なるデータストリームを処理する。説明可能性コンポーネント(XVocal)は、大規模言語モデルとAD研究文献のドメイン固有の知識ベースを組み合わせた、検索・拡張生成(RAG)アプローチを実装している。
論文参考訳（メタデータ） (2025-02-14T12:09:49Z)
Enhancing Depression Detection with Chain-of-Thought Prompting: From Emotion to Reasoning Using Large Language Models [9.43184936918456]
うつ病は世界中で障害の主な原因の1つである。大規模言語モデルの最近の進歩は、精神的な健康問題に対処する上で有望であることを示している。そこで本研究では,抑うつ検出の性能と解釈性を両立するChain-of-Thought Prompting手法を提案する。
論文参考訳（メタデータ） (2025-02-09T12:30:57Z)
Detecting Neurocognitive Disorders through Analyses of Topic Evolution and Cross-modal Consistency in Visual-Stimulated Narratives [84.03001845263]
神経認知障害(NCD)の早期発見は、時間的介入と疾患管理に不可欠である。音声と視覚刺激の相互整合性を測定するための2つの新しい動的マクロ構造手法を提案する。 TITANはCU-MARVEL-RABBITコーパスとADReSSコーパスの両方で優れた性能を示した。
論文参考訳（メタデータ） (2025-01-07T12:16:26Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
Investigating the Effectiveness of Explainability Methods in Parkinson's Detection from Speech [13.700867213652648]
パーキンソン病(PD)の音声障害は早期診断に重要な指標となる。音声によるPD検出のモデルは高い性能を示したが、その解釈可能性はまだ未検討である。本研究は,PD特有の音声特徴を特定するためのいくつかの説明可能性手法を体系的に評価する。
論文参考訳（メタデータ） (2024-11-12T18:43:27Z)
Selfsupervised learning for pathological speech detection [0.0]
音声生成は、様々な神経変性疾患による影響と破壊を受けやすい。これらの障害は、異常な発声パターンと不正確な調音を特徴とする病的発声を引き起こす。ニューロタイプ話者とは異なり、言語障害や障害のある患者は、AlexaやSiriなど、さまざまなバーチャルアシスタントにアクセスできない。
論文参考訳（メタデータ） (2024-05-16T07:12:47Z)
Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文参考訳（メタデータ） (2024-05-03T02:59:15Z)
Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。 MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文参考訳（メタデータ） (2024-04-10T07:41:35Z)
A Dual-Prompting for Interpretable Mental Health Language Models [11.33857985668663]
CLPsych 2024 Shared Taskは、Large Language Models (LLMs)の解釈可能性を高めることを目的としている。 i) 専門的アイデンティティと自殺辞書をメンタルヘルスに特有なLSMと組み合わせた知識認識型エビデンス抽出法と,(ii) LLMに基づく一貫性評価器を用いた要約手法を提案する。
論文参考訳（メタデータ） (2024-02-20T06:18:02Z)
Empowering Psychotherapy with Large Language Models: Cognitive Distortion Detection through Diagnosis of Thought Prompting [82.64015366154884]
本研究では,認知的歪み検出の課題について検討し,思考の早期発見(DoT)を提案する。 DoTは、事実と思考を分離するための主観的評価、思考と矛盾する推論プロセスを引き出すための対照的な推論、認知スキーマを要約するスキーマ分析という3つの段階を通して、患者のスピーチの診断を行う。実験により、DoTは認知的歪み検出のためのChatGPTよりも大幅に改善され、一方で人間の専門家が承認した高品質な合理性を生成することが示された。
論文参考訳（メタデータ） (2023-10-11T02:47:21Z)
This Patient Looks Like That Patient: Prototypical Networks for Interpretable Diagnosis Prediction from Clinical Text [56.32427751440426]
臨床実践においては、そのようなモデルは正確であるだけでなく、医師に解釈可能で有益な結果を与える必要がある。本稿では,プロトタイプネットワークに基づく新しい手法であるProtoPatientを紹介する。利用可能な2つの臨床データセット上でモデルを評価し、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-16T10:12:07Z)
A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。変形性音声の質は統計VCによって大幅に改善される。しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文参考訳（メタデータ） (2021-06-02T18:41:03Z)
Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。医療対話生成のためのエンドツーエンドの変分推論手法を提案する。行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文参考訳（メタデータ） (2021-05-13T04:14:35Z)
Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。共通情報と相補情報の両方を敵意で抽出することを目的としている。特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文参考訳（メタデータ） (2021-02-15T18:46:44Z)
Pose-based Body Language Recognition for Emotion and Psychiatric Symptom Interpretation [75.3147962600095]
通常のRGBビデオから始まるボディーランゲージに基づく感情認識のための自動フレームワークを提案する。心理学者との連携により,精神症状予測の枠組みを拡張した。提案されたフレームワークの特定のアプリケーションドメインは限られた量のデータしか供給しないため、フレームワークは小さなトレーニングセットで動作するように設計されている。
論文参考訳（メタデータ） (2020-10-30T18:45:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。