論文の概要: National Institute on Aging PREPARE Challenge: Early Detection of Cognitive Impairment Using Speech -- The SpeechCARE Solution
- arxiv url: http://arxiv.org/abs/2511.08132v2
- Date: Fri, 14 Nov 2025 01:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 13:23:30.61992
- Title: National Institute on Aging PREPARE Challenge: Early Detection of Cognitive Impairment Using Speech -- The SpeechCARE Solution
- Title(参考訳): 老化対策研究会 音声による認知障害の早期検出 -- SpeechCARE ソリューション
- Authors: Maryam Zolnoori, Hossein Azadmaleki, Yasaman Haghbin, Ali Zolnour, Mohammad Javad Momeni Nezhad, Sina Rashidi, Mehdi Naserian, Elyas Esmaeili, Sepehr Karimi Arpanahi,
- Abstract要約: アルツハイマー病と関連する認知症は、60歳以上の成人の5人に1人に影響を与えるが、認知低下した人の半数以上が未診断のままである。
SpeechCAREは、認知障害に関連する微妙な音声関連手がかりをキャプチャするマルチモーダル音声処理パイプラインである。
その堅牢な前処理には、自動転写、大規模言語モデル(LLM)に基づく異常検出、タスク識別が含まれる。
- 参考スコア(独自算出の注目度): 1.0486773259892048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alzheimer's disease and related dementias (ADRD) affect one in five adults over 60, yet more than half of individuals with cognitive decline remain undiagnosed. Speech-based assessments show promise for early detection, as phonetic motor planning deficits alter acoustic features (e.g., pitch, tone), while memory and language impairments lead to syntactic and semantic errors. However, conventional speech-processing pipelines with hand-crafted features or general-purpose audio classifiers often exhibit limited performance and generalizability. To address these limitations, we introduce SpeechCARE, a multimodal speech processing pipeline that leverages pretrained, multilingual acoustic and linguistic transformer models to capture subtle speech-related cues associated with cognitive impairment. Inspired by the Mixture of Experts (MoE) paradigm, SpeechCARE employs a dynamic fusion architecture that weights transformer-based acoustic, linguistic, and demographic inputs, allowing integration of additional modalities (e.g., social factors, imaging) and enhancing robustness across diverse tasks. Its robust preprocessing includes automatic transcription, large language model (LLM)-based anomaly detection, and task identification. A SHAP-based explainability module and LLM reasoning highlight each modality's contribution to decision-making. SpeechCARE achieved AUC = 0.88 and F1 = 0.72 for classifying cognitively healthy, MCI, and AD individuals, with AUC = 0.90 and F1 = 0.62 for MCI detection. Bias analysis showed minimal disparities, except for adults over 80. Mitigation techniques included oversampling and weighted loss. Future work includes deployment in real-world care settings (e.g., VNS Health, Columbia ADRC) and EHR-integrated explainability for underrepresented populations in New York City.
- Abstract(参考訳): アルツハイマー病と関連する認知症(ADRD)は60歳以上の成人5人に1人に影響を与えるが、認知機能低下の患者の半分以上が未診断のままである。
音声に基づく評価では、音声運動計画の欠陥が音響的特徴(例えば、ピッチ、トーン)を変化させる一方で、記憶障害や言語障害が構文的・意味的誤りを引き起こすため、早期発見が期待できる。
しかし、手作り機能や汎用音声分類器を備えた従来の音声処理パイプラインでは、性能や一般化性が制限されることが多い。
これらの制約に対処するために,事前学習,多言語音響および言語変換モデルを利用した多モーダル音声処理パイプラインであるSpeechCAREを導入し,認知障害に関連する微妙な音声関連手がかりを捉える。
混合専門家(MoE)パラダイムにインスパイアされたSpeechCAREは、トランスフォーマーベースの音響、言語、および人口動態の入力を重み付け、追加のモダリティ(例えば、社会的要因、イメージング)の統合と多様なタスク間の堅牢性の強化を可能にする動的融合アーキテクチャを採用している。
その堅牢な前処理には、自動転写、大規模言語モデル(LLM)に基づく異常検出、タスク識別が含まれる。
SHAPベースの説明可能性モジュールとLCM推論は、各モダリティの意思決定への貢献を強調している。
SpeechCARE は AUC = 0.88 と F1 = 0.72 を、認知学的に健康な MCI と AD の個人に分類し、AUC = 0.90 と F1 = 0.62 を MCI 検出に用いた。
バイアス分析では,80歳以上の成人を除いて,最小格差が認められた。
緩和技術にはオーバーサンプリングと重み付き損失が含まれていた。
今後の作業には、実際のケア環境(例えば、VNS Health、Columbia ADRC)への展開と、ニューヨーク市の人口不足に対するEHR統合説明能力が含まれる。
関連論文リスト
- Linguistic and Audio Embedding-Based Machine Learning for Alzheimer's Dementia and Mild Cognitive Impairment Detection: Insights from the PROCESS Challenge [0.0]
音声は、音響的次元と言語的次元の両方を包含し、認知の低下に対して有望な非侵襲的バイオマーカーを提供する。
本稿では,自然発声音声からの音声埋め込みと言語的特徴を両立させるプロシージャチャレンジのための機械学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-02T06:54:55Z) - Benchmarking Foundation Speech and Language Models for Alzheimer's Disease and Related Dementia Detection from Spontaneous Speech [14.936023751079654]
アルツハイマー病と認知症は進行性神経変性疾患である。
自発音声には、非侵襲的なバイオマーカーとして機能する豊富な音響マーカーと言語マーカーが含まれている。
大規模オーディオまたはテキストデータに基づいて事前訓練された基礎モデルは、文脈的および音響的特徴を符号化した高次元埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-09T17:52:31Z) - Dementia Insights: A Context-Based MultiModal Approach [0.3749861135832073]
早期発見は、病気の進行を遅らせる可能性のあるタイムリーな介入に不可欠である。
テキストと音声のための大規模事前学習モデル(LPM)は、認知障害の識別において有望であることを示している。
本研究は,テキストデータと音声データを最高の性能のLPMを用いて統合する,コンテキストベースのマルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2025-03-03T06:46:26Z) - Devising a Set of Compact and Explainable Spoken Language Feature for Screening Alzheimer's Disease [52.46922921214341]
アルツハイマー病(AD)は高齢化社会において最も重要な健康問題の一つとなっている。
我々は,大言語モデル(LLM)とTF-IDFモデルの視覚的機能を活用する,説明可能な効果的な機能セットを考案した。
当社の新機能は、自動ADスクリーニングの解釈可能性を高めるステップバイステップで説明し、解釈することができる。
論文 参考訳(メタデータ) (2024-11-28T05:23:22Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Alzheimer's Dementia Recognition Using Acoustic, Lexical, Disfluency and
Speech Pause Features Robust to Noisy Inputs [11.34426502082293]
本稿では, 話者がアルツハイマー病を患っているか否かを分類するために, ASR で書き起こされた音声と音響データを同時に消費する2つの多モード融合型深層学習モデルを提案する。
我々の最良モデルである、単語、単語確率、拡散特性、ポーズ情報、および様々な音響特徴を用いたハイウェイ層付きBiLSTMは、MMSE認知スコアに対して84%の精度とRSME誤差予測を4.26の精度で達成する。
論文 参考訳(メタデータ) (2021-06-29T19:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。