論文の概要: Impact of automatic speech recognition quality on Alzheimer's disease detection from spontaneous speech: a reproducible benchmark study with lexical modeling and statistical validation
- arxiv url: http://arxiv.org/abs/2603.18239v1
- Date: Wed, 18 Mar 2026 19:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.832272
- Title: Impact of automatic speech recognition quality on Alzheimer's disease detection from spontaneous speech: a reproducible benchmark study with lexical modeling and statistical validation
- Title(参考訳): 自発音声からのアルツハイマー病検出における音声認識品質の影響 : 語彙モデルと統計的検証を用いた再現性ベンチマークによる検討
- Authors: Himadri Samanta,
- Abstract要約: 自然発声からアルツハイマー病を早期に検出することは、有望な非侵襲的スクリーニングアプローチとして現れている。
本稿では,ADReSSo 2021 診断データセット上でWhisper ASR 転写産物から得られた語彙的特徴を用いたアルツハイマー病の検出について検討した。
Whisper-based transcripts でトレーニングされたモデルは、Linear SVM で 0.7850 以上のバランスの取れた精度を達成するため、一貫してWhisper-base transcripts よりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Early detection of Alzheimer's disease from spontaneous speech has emerged as a promising non-invasive screening approach. However, the influence of automatic speech recognition (ASR) quality on downstream clinical language modeling remains insufficiently understood. In this study, we investigate Alzheimer's disease detection using lexical features derived from Whisper ASR transcripts on the ADReSSo 2021 diagnosis dataset. We evaluate interpretable machine-learning models, including Logistic Regression and Linear Support Vector Machines, using TF-IDF text representations under repeated 5x5 stratified cross-validation. Our results demonstrate that transcript quality has a statistically significant impact on classification performance. Models trained on Whisper-small transcripts consistently outperform those using Whisper-base transcripts, achieving balanced accuracy above 0.7850 with Linear SVM. Paired statistical testing confirms that the observed improvements are significant. Importantly, classifier complexity contributes less to performance variation than ASR transcription quality. Feature analysis reveals that cognitively normal speakers produce more semantically precise object- and scene-descriptive language, whereas Alzheimer's speech is characterized by vagueness, discourse markers, and increased hesitation patterns. These findings suggest that high-quality ASR can enable simple, interpretable lexical models to achieve competitive Alzheimer's detection performance without explicit acoustic modeling. The study provides a reproducible benchmark pipeline and highlights ASR selection as a critical modeling decision in clinical speech-based artificial intelligence systems.
- Abstract(参考訳): 自然発声からアルツハイマー病を早期に検出することは、有望な非侵襲的スクリーニングアプローチとして現れている。
しかし、下流臨床言語モデリングにおける自動音声認識(ASR)の品質の影響は未だ十分に理解されていない。
本研究では,ADReSSo 2021診断データセット上のWhisper ASR転写産物から得られた語彙的特徴を用いたアルツハイマー病の検出について検討した。
TF-IDFのテキスト表現を5x5階層のクロスバリデーションで繰り返し行うことにより,ロジスティック回帰や線形サポートベクトルマシンなどの解釈可能な機械学習モデルを評価する。
その結果,転写品質は分類性能に統計的に有意な影響を及ぼすことが示された。
Whisper-based transcripts でトレーニングされたモデルは、Linear SVM で 0.7850 以上のバランスの取れた精度を達成するため、一貫してWhisper-base transcripts よりも優れていた。
乳児統計検査は、観察された改善が重要であることを確認した。
重要なことに、分類器の複雑さは、ASR転写品質よりもパフォーマンスの変化に寄与しない。
特徴分析では、認知的に正常な話者はより意味論的にオブジェクト・記述言語とシーン・記述言語を作り出すが、一方、アルツハイマーのスピーチはあいまいさ、談話マーカー、発声パターンの増大が特徴である。
これらの結果から,高品質のASRにより,明示的な音響モデルを用いることなく,単純かつ解釈可能な語彙モデルにより,競争力のあるアルツハイマーの検出性能を達成できることが示唆された。
この研究は再現可能なベンチマークパイプラインを提供し、臨床音声ベースの人工知能システムにおける重要なモデリング決定としてASRの選択を強調している。
関連論文リスト
- Agentic Cognitive Profiling: Realigning Automated Alzheimer's Disease Detection with Clinical Construct Validity [66.94391219005291]
本稿では,臨床プロトコルロジックによる自動スクリーニングを実現するエージェント認知プロファイリング(ACP)を提案する。
我々の設計の中心は、すべての定量化を決定論的関数呼び出しに委譲することで、測定から意味的理解を分離することである。
ACPは、タスク試験で90.5%のスコアマッチ率、AD予測で85.3%の精度を達成し、一般的な基準を上回っている。
論文 参考訳(メタデータ) (2026-03-18T06:15:35Z) - Something from Nothing: Data Augmentation for Robust Severity Level Estimation of Dysarthric Speech [69.86604856129883]
外科的音声品質評価(DSQA)は臨床診断と包括的音声技術において重要である。
本研究では,未ラベルの変形音声と大規模典型的な音声データセットを併用した3段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-16T23:00:07Z) - Benchmarking Foundation Speech and Language Models for Alzheimer's Disease and Related Dementia Detection from Spontaneous Speech [14.936023751079654]
アルツハイマー病と認知症は進行性神経変性疾患である。
自発音声には、非侵襲的なバイオマーカーとして機能する豊富な音響マーカーと言語マーカーが含まれている。
大規模オーディオまたはテキストデータに基づいて事前訓練された基礎モデルは、文脈的および音響的特徴を符号化した高次元埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-09T17:52:31Z) - NeuroXVocal: Detection and Explanation of Alzheimer's Disease through Non-invasive Analysis of Picture-prompted Speech [4.815952991777717]
NeuroXVocalは、音声分析によってアルツハイマー病(AD)の可能性を分類し、説明する新しい二重成分システムである。
分類コンポーネント(Neuro)は、音声パターンと音声特徴をキャプチャする音響特徴、音声書き起こしから抽出したテキスト特徴、言語パターンを表す事前計算された埋め込みの3つの異なるデータストリームを処理する。
説明可能性コンポーネント(XVocal)は、大規模言語モデルとAD研究文献のドメイン固有の知識ベースを組み合わせた、検索・拡張生成(RAG)アプローチを実装している。
論文 参考訳(メタデータ) (2025-02-14T12:09:49Z) - Not All Errors Are Equal: Investigation of Speech Recognition Errors in Alzheimer's Disease Detection [62.942077348224046]
アルツハイマー病(AD)の自動診断における音声認識の役割
近年の研究では,単語誤り率(WER)とAD検出性能の非線形関係が明らかにされている。
本研究は,BERTを用いたAD検出システムにおけるASR転写誤りの影響について,一連の解析を行った。
論文 参考訳(メタデータ) (2024-12-09T09:32:20Z) - Devising a Set of Compact and Explainable Spoken Language Feature for Screening Alzheimer's Disease [52.46922921214341]
アルツハイマー病(AD)は高齢化社会において最も重要な健康問題の一つとなっている。
我々は,大言語モデル(LLM)とTF-IDFモデルの視覚的機能を活用する,説明可能な効果的な機能セットを考案した。
当社の新機能は、自動ADスクリーニングの解釈可能性を高めるステップバイステップで説明し、解釈することができる。
論文 参考訳(メタデータ) (2024-11-28T05:23:22Z) - Useful Blunders: Can Automated Speech Recognition Errors Improve
Downstream Dementia Classification? [9.275790963007173]
自動音声認識システム(ASR)の誤差が認知症分類精度に与える影響について検討した。
ASRが生成した不完全な転写産物が貴重な情報を提供するかどうかを評価することを目的としていた。
論文 参考訳(メタデータ) (2024-01-10T21:38:03Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - The Far Side of Failure: Investigating the Impact of Speech Recognition
Errors on Subsequent Dementia Classification [8.032686410648274]
自然発話で検出される言語異常は、認知障害などの認知障害のスクリーニングなど、様々な臨床応用の可能性を示唆している。
自己教師付き学習(SSL)自動音声認識(ASR)モデルにおいて,臨床環境から抽出した難解な音声サンプルでは,有意な性能が得られない。
我々の重要な発見の1つは、パラドックス的に、比較的高いエラー率を持つASRシステムは、動詞の文字起こしに基づく分類よりも、より下流の分類精度の高い転写文を生成できるということである。
論文 参考訳(メタデータ) (2022-11-11T17:06:45Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Comparing Natural Language Processing Techniques for Alzheimer's
Dementia Prediction in Spontaneous Speech [1.2805268849262246]
アルツハイマー認知症(英語: Alzheimer's Dementia、AD)は、認知機能に影響を与える不治の、不安定で進行性の神経変性疾患である。
自発音声タスクによるアルツハイマー認知は、ADの分類と予測のために、音響的に前処理とバランスの取れたデータセットを提供する。
論文 参考訳(メタデータ) (2020-06-12T17:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。