論文の概要: Linguistic and Audio Embedding-Based Machine Learning for Alzheimer's Dementia and Mild Cognitive Impairment Detection: Insights from the PROCESS Challenge
- arxiv url: http://arxiv.org/abs/2510.03336v1
- Date: Thu, 02 Oct 2025 06:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.842512
- Title: Linguistic and Audio Embedding-Based Machine Learning for Alzheimer's Dementia and Mild Cognitive Impairment Detection: Insights from the PROCESS Challenge
- Title(参考訳): アルツハイマー認知症・軽度認知障害検出のための言語・音声埋め込み型機械学習:課題から
- Authors: Adharsha Sam Edwin Sam Devahi, Sohail Singh Sangha, Prachee Priyadarshinee, Jithin Thilakan, Ivan Fu Xing Tan, Christopher Johann Clarke, Sou Ka Lon, Balamurali B T, Yow Wei Quin, Chen Jer-Ming,
- Abstract要約: 音声は、音響的次元と言語的次元の両方を包含し、認知の低下に対して有望な非侵襲的バイオマーカーを提供する。
本稿では,自然発声音声からの音声埋め込みと言語的特徴を両立させるプロシージャチャレンジのための機械学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Early detection of Alzheimer's Dementia (AD) and Mild Cognitive Impairment (MCI) is critical for timely intervention, yet current diagnostic approaches remain resource-intensive and invasive. Speech, encompassing both acoustic and linguistic dimensions, offers a promising non-invasive biomarker for cognitive decline. In this study, we present a machine learning framework for the PROCESS Challenge, leveraging both audio embeddings and linguistic features derived from spontaneous speech recordings. Audio representations were extracted using Whisper embeddings from the Cookie Theft description task, while linguistic features-spanning pronoun usage, syntactic complexity, filler words, and clause structure-were obtained from transcriptions across Semantic Fluency, Phonemic Fluency, and Cookie Theft picture description. Classification models aimed to distinguish between Healthy Controls (HC), MCI, and AD participants, while regression models predicted Mini-Mental State Examination (MMSE) scores. Results demonstrated that voted ensemble models trained on concatenated linguistic features achieved the best classification performance (F1 = 0.497), while Whisper embedding-based ensemble regressors yielded the lowest MMSE prediction error (RMSE = 2.843). Comparative evaluation within the PROCESS Challenge placed our models among the top submissions in regression task, and mid-range for classification, highlighting the complementary strengths of linguistic and audio embeddings. These findings reinforce the potential of multimodal speech-based approaches for scalable, non-invasive cognitive assessment and underline the importance of integrating task-specific linguistic and acoustic markers in dementia detection.
- Abstract(参考訳): アルツハイマー認知症(AD)とミルド認知障害(MCI)の早期発見は、時間的介入に重要であるが、現在の診断アプローチはリソース集約的で侵襲的である。
音声は、音響的次元と言語的次元の両方を包含し、認知の低下に対して有望な非侵襲的バイオマーカーを提供する。
本研究では,自然発声音声からの音声埋め込みと言語的特徴の両面を活用した,プロシージャチャレンジのための機械学習フレームワークを提案する。
音声表現は、Cookie Theft記述タスクからWhisper埋め込みを用いて抽出し、セマンティック・フルーエンシー、Phonmic Fluency、Cookie Theft画像記述を含む書き起こしから得られる言語的特徴スパンニング代名詞の使用、構文的複雑さ、フィラー語、節構造を抽出した。
分類モデルは、健康管理(HC)、MCI(MCI)、AD(AD)を区別することを目的としており、回帰モデルは、MMSE(Mini-Mental State Examination)スコアを予測した。
その結果,統合言語特徴に基づいて学習した投票アンサンブルモデルが最も優れた分類性能(F1 = 0.497)を達成し,Whisper埋め込み型アンサンブル回帰器は最も低いMMSE予測誤差(RMSE = 2.843)を得た。
プロセスチャレンジにおける評価では、回帰タスクの上位候補と、言語と音声の埋め込みの相補的な強みを強調して、分類の中間領域にモデルを配置した。
これらの知見は、スケーラブルで非侵襲的な認知評価のためのマルチモーダル音声ベースのアプローチの可能性を強化し、認知症検出におけるタスク特異的言語マーカーと音響マーカーの統合の重要性を浮き彫りにした。
関連論文リスト
- Benchmarking Foundation Speech and Language Models for Alzheimer's Disease and Related Dementia Detection from Spontaneous Speech [14.936023751079654]
アルツハイマー病と認知症は進行性神経変性疾患である。
自発音声には、非侵襲的なバイオマーカーとして機能する豊富な音響マーカーと言語マーカーが含まれている。
大規模オーディオまたはテキストデータに基づいて事前訓練された基礎モデルは、文脈的および音響的特徴を符号化した高次元埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-09T17:52:31Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Dementia Insights: A Context-Based MultiModal Approach [0.3749861135832073]
早期発見は、病気の進行を遅らせる可能性のあるタイムリーな介入に不可欠である。
テキストと音声のための大規模事前学習モデル(LPM)は、認知障害の識別において有望であることを示している。
本研究は,テキストデータと音声データを最高の性能のLPMを用いて統合する,コンテキストベースのマルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2025-03-03T06:46:26Z) - Devising a Set of Compact and Explainable Spoken Language Feature for Screening Alzheimer's Disease [52.46922921214341]
アルツハイマー病(AD)は高齢化社会において最も重要な健康問題の一つとなっている。
我々は,大言語モデル(LLM)とTF-IDFモデルの視覚的機能を活用する,説明可能な効果的な機能セットを考案した。
当社の新機能は、自動ADスクリーニングの解釈可能性を高めるステップバイステップで説明し、解釈することができる。
論文 参考訳(メタデータ) (2024-11-28T05:23:22Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Multi-modal fusion with gating using audio, lexical and disfluency
features for Alzheimer's Dementia recognition from spontaneous speech [11.34426502082293]
本論文は、自発音声(ADReSS)によるアルツハイマー認知症への挑戦である。
本研究の目的は、音声データからアルツハイマー病の重症度の自動予測を支援する方法を開発することである。
論文 参考訳(メタデータ) (2021-06-17T17:20:57Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。