論文の概要: CogniAlign: Word-Level Multimodal Speech Alignment with Gated Cross-Attention for Alzheimer's Detection
- arxiv url: http://arxiv.org/abs/2506.01890v1
- Date: Mon, 02 Jun 2025 17:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.624059
- Title: CogniAlign: Word-Level Multimodal Speech Alignment with Gated Cross-Attention for Alzheimer's Detection
- Title(参考訳): CogniAlign: 言語レベル多モーダル音声アライメントによるアルツハイマーの検出
- Authors: David Ortiz-Perez, Manuel Benavent-Lledo, Javier Rodriguez-Juan, Jose Garcia-Rodriguez, David Tomás,
- Abstract要約: 本稿では,アルツハイマー検出のためのマルチモーダルアーキテクチャであるCogniAlignを紹介する。
音声とテキストのモダリティと、2つの非侵入的な情報ソースを統合している。
精度は90.36%で、既存の最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 0.5172964916120903
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Early detection of cognitive disorders such as Alzheimer's disease is critical for enabling timely clinical intervention and improving patient outcomes. In this work, we introduce CogniAlign, a multimodal architecture for Alzheimer's detection that integrates audio and textual modalities, two non-intrusive sources of information that offer complementary insights into cognitive health. Unlike prior approaches that fuse modalities at a coarse level, CogniAlign leverages a word-level temporal alignment strategy that synchronizes audio embeddings with corresponding textual tokens based on transcription timestamps. This alignment supports the development of token-level fusion techniques, enabling more precise cross-modal interactions. To fully exploit this alignment, we propose a Gated Cross-Attention Fusion mechanism, where audio features attend over textual representations, guided by the superior unimodal performance of the text modality. In addition, we incorporate prosodic cues, specifically interword pauses, by inserting pause tokens into the text and generating audio embeddings for silent intervals, further enriching both streams. We evaluate CogniAlign on the ADReSSo dataset, where it achieves an accuracy of 90.36%, outperforming existing state-of-the-art methods. A detailed ablation study confirms the advantages of our alignment strategy, attention-based fusion, and prosodic modeling.
- Abstract(参考訳): アルツハイマー病などの認知障害の早期発見は、タイムリーな臨床介入を可能にし、患者の結果を改善するために重要である。
本研究では,認知健康の相補的な洞察を提供する2つの非侵襲的な情報源である音声とテキストのモダリティを統合した,アルツハイマー病検出のためのマルチモーダルアーキテクチャであるCogniAlignを紹介する。
粗いレベルでモダリティを融合させる従来のアプローチとは異なり、CogniAlignは文字タイムスタンプに基づいて音声埋め込みと対応するテキストトークンを同期する単語レベルの時間的アライメント戦略を利用している。
このアライメントはトークンレベルの融合技術の発展をサポートし、より正確な相互モーダル相互作用を可能にする。
このアライメントをフル活用するために,音声特徴がテキスト表現に付随するGated Cross-Attention Fusion機構を提案する。
さらに、テキストにポーズトークンを挿入し、サイレントインターバルのためのオーディオ埋め込みを生成し、両方のストリームをさらに強化することで、韻律的キュー、特に単語間停止を組み込む。
我々は、ADReSSoデータセット上でCogniAlignを評価し、90.36%の精度を達成し、既存の最先端手法よりも優れています。
詳細なアブレーション研究は、アライメント戦略、注意に基づく融合、韻律モデリングの利点を裏付けるものである。
関連論文リスト
- AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Early Detection of Mental Health Issues Using Social Media Posts [0.0]
Redditのようなソーシャルメディアプラットフォームは、ユーザー生成コンテンツの豊富なソースを表している。
メンタルヘルス危機の早期発見に言語的特徴と時間的特徴を統合したマルチモーダルディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-06T23:08:08Z) - Dementia Insights: A Context-Based MultiModal Approach [0.3749861135832073]
早期発見は、病気の進行を遅らせる可能性のあるタイムリーな介入に不可欠である。
テキストと音声のための大規模事前学習モデル(LPM)は、認知障害の識別において有望であることを示している。
本研究は,テキストデータと音声データを最高の性能のLPMを用いて統合する,コンテキストベースのマルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2025-03-03T06:46:26Z) - Detecting Neurocognitive Disorders through Analyses of Topic Evolution and Cross-modal Consistency in Visual-Stimulated Narratives [84.03001845263]
神経認知障害(NCD)の早期発見は、時間的介入と疾患管理に不可欠である。
伝統的な物語分析は、しばしば単語の使用法や構文など、ミクロ構造における局所的な指標に焦点を当てる。
本稿では,話題の変化,時間的ダイナミクス,物語の時間的コヒーレンスを分析することによって,特定の認知的・言語的課題を解明することを提案する。
論文 参考訳(メタデータ) (2025-01-07T12:16:26Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Multi-modal fusion with gating using audio, lexical and disfluency
features for Alzheimer's Dementia recognition from spontaneous speech [11.34426502082293]
本論文は、自発音声(ADReSS)によるアルツハイマー認知症への挑戦である。
本研究の目的は、音声データからアルツハイマー病の重症度の自動予測を支援する方法を開発することである。
論文 参考訳(メタデータ) (2021-06-17T17:20:57Z) - CogAlign: Learning to Align Textual Neural Representations to Cognitive
Language Processing Signals [60.921888445317705]
自然言語処理モデルに認知言語処理信号を統合するためのCogAlignアプローチを提案する。
我々は、CogAlignが、パブリックデータセット上の最先端モデルよりも、複数の認知機能で大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T07:10:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。