論文の概要: Cross-Enhanced Multimodal Fusion of Eye-Tracking and Facial Features for Alzheimer's Disease Diagnosis
- arxiv url: http://arxiv.org/abs/2510.24777v1
- Date: Sat, 25 Oct 2025 13:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.485575
- Title: Cross-Enhanced Multimodal Fusion of Eye-Tracking and Facial Features for Alzheimer's Disease Diagnosis
- Title(参考訳): アルツハイマー病診断における視線追跡と顔面像の相互融合
- Authors: Yujie Nie, Jianzhang Ni, Yonglong Ye, Yuan-Ting Zhang, Yun Kwok Wing, Xiangqing Xu, Xin Ma, Lizhou Fan,
- Abstract要約: 視線追跡と顔の特徴は、注意分布と神経認知状態を反映する認知機能の重要な指標である。
アルツハイマー病の診断に視線追跡と顔の特徴を活用する多モーダルクロスエンハンス融合フレームワークを提案する。
我々のフレームワークは、従来のレイトフュージョンや特徴連結法よりも優れています。
- 参考スコア(独自算出の注目度): 9.111075363945892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate diagnosis of Alzheimer's disease (AD) is essential for enabling timely intervention and slowing disease progression. Multimodal diagnostic approaches offer considerable promise by integrating complementary information across behavioral and perceptual domains. Eye-tracking and facial features, in particular, are important indicators of cognitive function, reflecting attentional distribution and neurocognitive state. However, few studies have explored their joint integration for auxiliary AD diagnosis. In this study, we propose a multimodal cross-enhanced fusion framework that synergistically leverages eye-tracking and facial features for AD detection. The framework incorporates two key modules: (a) a Cross-Enhanced Fusion Attention Module (CEFAM), which models inter-modal interactions through cross-attention and global enhancement, and (b) a Direction-Aware Convolution Module (DACM), which captures fine-grained directional facial features via horizontal-vertical receptive fields. Together, these modules enable adaptive and discriminative multimodal representation learning. To support this work, we constructed a synchronized multimodal dataset, including 25 patients with AD and 25 healthy controls (HC), by recording aligned facial video and eye-tracking sequences during a visual memory-search paradigm, providing an ecologically valid resource for evaluating integration strategies. Extensive experiments on this dataset demonstrate that our framework outperforms traditional late fusion and feature concatenation methods, achieving a classification accuracy of 95.11% in distinguishing AD from HC, highlighting superior robustness and diagnostic performance by explicitly modeling inter-modal dependencies and modality-specific contributions.
- Abstract(参考訳): アルツハイマー病(AD)の正確な診断は、タイムリーな介入と疾患進行の鈍化に不可欠である。
マルチモーダル診断アプローチは、行動ドメインと知覚ドメインをまたいだ相補的な情報を統合することで、かなり有望である。
視線追跡と顔の特徴は、特に認知機能の重要な指標であり、注意分布と神経認知状態を反映している。
しかし, 補助的AD診断のためのジョイントインテリジェンスについて検討する研究はほとんどない。
本研究では、視線追跡と顔の特徴を相乗的に活用し、AD検出を行うマルチモーダルクロスエンハンスドフュージョンフレームワークを提案する。
このフレームワークには2つの重要なモジュールが含まれている。
(a)クロスアテンションとグローバルエンハンスメントを通してモーダル間相互作用をモデル化するクロスエンハンスメント・フュージョン・アテンション・モジュール(CEFAM)
b) 指向性認識変換モジュール (DACM) は, 水平垂直受容場を介して, きめ細かな顔の特徴を捉える。
これらのモジュールは、適応的で差別的なマルチモーダル表現学習を可能にする。
この作業を支援するために,視覚記憶探索パラダイムにおいて顔映像と視線追跡シーケンスを記録し,統合戦略を評価するための生態学的に有効な資源を提供することにより,AD患者25名と健康管理患者25名を含む同期マルチモーダルデータセットを構築した。
このデータセットの大規模な実験により、我々のフレームワークは従来のレイトフュージョン法や特徴結合法よりも優れており、ADとHCを区別して95.11%の分類精度を実現し、モーダル間の依存関係とモダリティ固有の貢献を明示的にモデル化することで、優れた堅牢性と診断性能を強調している。
関連論文リスト
- RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Multimodal Medical Endoscopic Image Analysis via Progressive Disentangle-aware Contrastive Learning [11.158864816564538]
本稿では,Align-Disentangle-Fusion'機構に基づく,革新的な多モード表現学習フレームワークを提案する。
本手法は最先端のアプローチを一貫して上回り,様々な臨床シナリオにおいて高い精度を達成している。
論文 参考訳(メタデータ) (2025-08-23T03:02:51Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - Multimodal Outer Arithmetic Block Dual Fusion of Whole Slide Images and Omics Data for Precision Oncology [6.418265127069878]
本稿では, 局所(パッチレベル)から大域(スライダーレベル)の相互作用の相補的な情報を取得するために, 早期・後期融合におけるオミック埋め込みの利用を提案する。
この二重融合戦略は、解釈可能性と分類性能を高め、臨床診断の可能性を強調している。
論文 参考訳(メタデータ) (2024-11-26T13:25:53Z) - An interpretable generative multimodal neuroimaging-genomics framework for decoding Alzheimer's disease [13.213387075528017]
アルツハイマー病(英語: Alzheimer's disease, AD)は、認知機能障害(Mild Cognitive Impairment, MCI)として知られる前ドロマステージを含む認知症である。
この研究の目的は、マルチモーダルMRIデータと単一核化物多型に依存する脳構造と機能の構造的・機能的調節を捉えることである。
論文 参考訳(メタデータ) (2024-06-19T07:31:47Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Multimodal Attention-based Deep Learning for Alzheimer's Disease
Diagnosis [9.135911493822261]
アルツハイマー病(英語: Alzheimer's Disease、AD)は、最も複雑な病原体を持つ神経変性疾患である。
われわれは,ADの有無を正確に検出するためのマルチモーダルアルツハイマー病診断フレームワーク(MADDi)を提案する。
論文 参考訳(メタデータ) (2022-06-17T15:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。