論文の概要: Benchmarking Foundation Speech and Language Models for Alzheimer's Disease and Related Dementia Detection from Spontaneous Speech
- arxiv url: http://arxiv.org/abs/2506.11119v1
- Date: Mon, 09 Jun 2025 17:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.480217
- Title: Benchmarking Foundation Speech and Language Models for Alzheimer's Disease and Related Dementia Detection from Spontaneous Speech
- Title(参考訳): アルツハイマー病の音声・言語モデルのベンチマークと自発音声による認知症検出
- Authors: Jingyu Li, Lingchao Mao, Hairong Wang, Zhendong Wang, Xi Mao, Xuelei Sherry Ni,
- Abstract要約: アルツハイマー病と認知症は進行性神経変性疾患である。
自発音声には、非侵襲的なバイオマーカーとして機能する豊富な音響マーカーと言語マーカーが含まれている。
大規模オーディオまたはテキストデータに基づいて事前訓練された基礎モデルは、文脈的および音響的特徴を符号化した高次元埋め込みを生成する。
- 参考スコア(独自算出の注目度): 14.936023751079654
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Background: Alzheimer's disease and related dementias (ADRD) are progressive neurodegenerative conditions where early detection is vital for timely intervention and care. Spontaneous speech contains rich acoustic and linguistic markers that may serve as non-invasive biomarkers for cognitive decline. Foundation models, pre-trained on large-scale audio or text data, produce high-dimensional embeddings encoding contextual and acoustic features. Methods: We used the PREPARE Challenge dataset, which includes audio recordings from over 1,600 participants with three cognitive statuses: healthy control (HC), mild cognitive impairment (MCI), and Alzheimer's Disease (AD). We excluded non-English, non-spontaneous, or poor-quality recordings. The final dataset included 703 (59.13%) HC, 81 (6.81%) MCI, and 405 (34.06%) AD cases. We benchmarked a range of open-source foundation speech and language models to classify cognitive status into the three categories. Results: The Whisper-medium model achieved the highest performance among speech models (accuracy = 0.731, AUC = 0.802). Among language models, BERT with pause annotation performed best (accuracy = 0.662, AUC = 0.744). ADRD detection using state-of-the-art automatic speech recognition (ASR) model-generated audio embeddings outperformed others. Including non-semantic features like pause patterns consistently improved text-based classification. Conclusion: This study introduces a benchmarking framework using foundation models and a clinically relevant dataset. Acoustic-based approaches -- particularly ASR-derived embeddings -- demonstrate strong potential for scalable, non-invasive, and cost-effective early detection of ADRD.
- Abstract(参考訳): 背景:アルツハイマー病と関連する認知症(ADRD)は、早期発見が時間的介入とケアに不可欠である進行性神経変性疾患である。
自発音声には、認知低下のための非侵襲的バイオマーカーとして機能する豊富な音響マーカーと言語マーカーが含まれている。
大規模オーディオまたはテキストデータに基づいて事前訓練された基礎モデルは、文脈的および音響的特徴を符号化した高次元埋め込みを生成する。
方法: 健康管理(HC),軽度認知障害(MCI),アルツハイマー病(AD)の3つの認知状態を持つ1,600人以上の被験者の音声記録を含むPrePARE Challengeデータセットを使用した。
非英語、非自発、または品質の悪い録音は除外しました。
最終データセットは703 (59.13%) HC、81 (6.81%) MCI、405 (34.06%) ADである。
我々は、認知状態を3つのカテゴリに分類するために、さまざまなオープンソースの基礎言語モデルと言語モデルをベンチマークした。
結果:Whisper-mediumモデルが最も高い性能(精度0.731,AUC0.802)を達成した。
言語モデルの中では、停止アノテーション付きBERTが最もうまく機能した(精度は0.662、AUCは0.744)。
最先端自動音声認識(ASR)モデルを用いたADRD検出は、他よりも優れていた。
停止パターンのような非意味的な機能を含め、テキストベースの分類は一貫して改善された。
結論:本研究では,基礎モデルと臨床関連データセットを用いたベンチマークフレームワークを導入する。
音響に基づくアプローチ、特にASR由来の埋め込みは、スケーラブルで非侵襲的で費用対効果の高いADRD早期検出の強い可能性を示している。
関連論文リスト
- Dementia Insights: A Context-Based MultiModal Approach [0.3749861135832073]
早期発見は、病気の進行を遅らせる可能性のあるタイムリーな介入に不可欠である。
テキストと音声のための大規模事前学習モデル(LPM)は、認知障害の識別において有望であることを示している。
本研究は,テキストデータと音声データを最高の性能のLPMを用いて統合する,コンテキストベースのマルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2025-03-03T06:46:26Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - Acoustic-Linguistic Features for Modeling Neurological Task Score in
Alzheimer's [1.290382979353427]
自然言語処理と機械学習はアルツハイマー病を確実に検出するための有望な技術を提供する。
我々は,10種類の線形回帰モデルの性能を比較し,比較した。
与えられたタスクに対して,手作りの言語的特徴は音響的特徴や学習的特徴よりも重要であることがわかった。
論文 参考訳(メタデータ) (2022-09-13T15:35:31Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Influence of ASR and Language Model on Alzheimer's Disease Detection [2.4698886064068555]
画像から参加者の音声記述を転写するために,SotA ASRシステムを用いて分析する。
本研究では,ASRから仮説を復号化するための言語モデルが欠如していることから,単語の非標準列を補正する言語モデルの影響について検討する。
提案システムは、韻律と声質に基づく音響と、最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせる。
論文 参考訳(メタデータ) (2021-09-20T10:41:39Z) - Alzheimer's Disease Detection from Spontaneous Speech through Combining
Linguistic Complexity and (Dis)Fluency Features with Pretrained Language
Models [27.960536826774923]
本稿では,アルツハイマー病検出の課題に対して,言語複雑性と(非)周波数特性を事前学習言語モデルと組み合わせた。
83.1%の精度がテストセットで達成され、ベースラインモデルよりも4.23%向上した。
論文 参考訳(メタデータ) (2021-06-16T10:50:18Z) - Comparing Natural Language Processing Techniques for Alzheimer's
Dementia Prediction in Spontaneous Speech [1.2805268849262246]
アルツハイマー認知症(英語: Alzheimer's Dementia、AD)は、認知機能に影響を与える不治の、不安定で進行性の神経変性疾患である。
自発音声タスクによるアルツハイマー認知は、ADの分類と予測のために、音響的に前処理とバランスの取れたデータセットを提供する。
論文 参考訳(メタデータ) (2020-06-12T17:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。