論文の概要: MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening
- arxiv url: http://arxiv.org/abs/2602.23994v1
- Date: Fri, 27 Feb 2026 13:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.431618
- Title: MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening
- Title(参考訳): MINT:早期アルツハイマースクリーニングのためのマルチモーダルイメージング-音声知識伝達
- Authors: Vrushank Ahire, Yogesh Kumar, Anouck Girard, M. A. Ganaie,
- Abstract要約: 我々は,MRIから音声エンコーダにバイオマーカー構造を伝達するフレームワークであるMINTを提案する。
これは、早期アルツハイマースクリーニングのためのMRIから音声への知識伝達の最初の実演である。
- 参考スコア(独自算出の注目度): 7.173276027228098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alzheimer's disease is a progressive neurodegenerative disorder in which mild cognitive impairment (MCI) marks a critical transition between aging and dementia. Neuroimaging modalities, such as structural MRI, provide biomarkers of this transition; however, their high costs and infrastructure needs limit their deployment at a population scale. Speech analysis offers a non-invasive alternative, but speech-only classifiers are developed independently of neuroimaging, leaving decision boundaries biologically ungrounded and limiting reliability on the subtle CN-versus-MCI distinction. We propose MINT (Multimodal Imaging-to-Speech Knowledge Transfer), a three-stage cross-modal framework that transfers biomarker structure from MRI into a speech encoder at training time. An MRI teacher, trained on 1,228 subjects, defines a compact neuroimaging embedding space for CN-versus-MCI classification. A residual projection head aligns speech representations to this frozen imaging manifold via a combined geometric loss, adapting speech to the learned biomarker space while preserving imaging encoder fidelity. The frozen MRI classifier, which is never exposed to speech, is applied to aligned embeddings at inference and requires no scanner. Evaluation on ADNI-4 shows aligned speech achieves performance comparable to speech-only baselines (AUC 0.720 vs 0.711) while requiring no imaging at inference, demonstrating that MRI-derived decision boundaries can ground speech representations. Multimodal fusion improves over MRI alone (0.973 vs 0.958). Ablation studies identify dropout regularization and self-supervised pretraining as critical design decisions. To our knowledge, this is the first demonstration of MRI-to-speech knowledge transfer for early Alzheimer's screening, establishing a biologically grounded pathway for population-level cognitive triage without neuroimaging at inference.
- Abstract(参考訳): アルツハイマー病は進行性神経変性疾患であり、軽度認知障害(MCI)は老化と認知症の間に重要な変化を示す。
構造MRIのようなニューロイメージングのモダリティは、この遷移のバイオマーカーを提供するが、その高いコストとインフラは人口規模での展開を制限する必要がある。
音声分析は、非侵襲的な代替手段を提供するが、音声のみの分類器は、神経イメージングとは独立して開発され、決定境界は生物学的に根拠がなく、微妙なCN対MCIの区別に信頼性が制限される。
MINT(Multimodal Imaging-to-Speech Knowledge Transfer)は,MRIから音声エンコーダへバイオマーカー構造を伝達する3段階のクロスモーダルフレームワークである。
1,228名の被験者を対象に訓練されたMRI教師は、CN-versus-MCI分類のためのコンパクトな神経画像埋め込み空間を定義する。
残射影ヘッドは、画像エンコーダの忠実性を保ちながら、学習されたバイオマーカー空間に音声を適応させ、合成された幾何学的損失により、この凍結画像多様体に音声表現を整列させる。
凍結したMRI分類器は、決して音声に晒されないが、推論時に配置された埋め込みに適用され、スキャナーを必要としない。
ADNI-4の評価は、MRIによる決定境界が音声表現をグラウンドグラウンド化できることを示しながら、音声のみのベースライン(AUC 0.720 vs 0.711)に匹敵する性能を示す。
マルチモーダル核融合はMRI単独で改善する(0.973 vs 0.958)。
アブレーション研究は、ドロップアウト規則化と自己監督型事前訓練を重要な設計決定とみなしている。
我々の知る限り、これは早期アルツハイマースクリーニングのためのMRIから音声への知識伝達の初めての実演であり、推論時に神経イメージングをせずに、生物学的に基礎を成す認知トリアージの経路を確立した。
関連論文リスト
- MIRAGE: Knowledge Graph-Guided Cross-Cohort MRI Synthesis for Alzheimer's Disease Prediction [15.543131466384658]
MIRAGEは、欠落したMRI問題を解剖誘導型クロスモーダルラテント蒸留タスクとして再構成する新しいフレームワークである。
凍結事前訓練された3次元U-Netデコーダを補助正規化エンジンとして厳密に採用する。
実験の結果、我々のフレームワークはモダリティのギャップを埋めることに成功し、AD分類率を13%改善した。
論文 参考訳(メタデータ) (2026-03-02T22:17:37Z) - fMRI-LM: Towards a Universal Foundation Model for Language-Aligned fMRI Understanding [30.02799445727658]
機能的MRI(fMRI)と言語を3段階の枠組みでブリッジする基礎モデルであるfMRI-LMを提案する。
ステージ1では、fMRIを言語一貫性空間に埋め込まれた離散トークンにマッピングする神経トークン化器を学習する。
ステージ2では、事前訓練されたLLMがfMRIトークンとテキストを共同でモデル化し、脳の活動が時間的に予測され言語的に記述されるシーケンスとして扱われる。
ステージ3では、ハイレベルなセマンティック理解を備えたfMRI-LMを実現するために、マルチタスク、マルチパラダイムのチューニングを行う。
論文 参考訳(メタデータ) (2025-11-24T20:26:59Z) - Naturalistic Language-related Movie-Watching fMRI Task for Detecting Neurocognitive Decline and Disorder [60.84344168388442]
言語関連機能的磁気共鳴画像(fMRI)は,認知機能低下と早期NCDの検出に有望なアプローチである。
香港在住の高齢者97名を対象に,この課題の有効性について検討した。
本研究は、加齢に伴う認知低下とNCDの早期発見のための自然言語関連fMRIタスクの可能性を示した。
論文 参考訳(メタデータ) (2025-06-10T16:58:47Z) - 4D Multimodal Co-attention Fusion Network with Latent Contrastive Alignment for Alzheimer's Diagnosis [24.771496672135395]
M2M-AlignNet: 早期アルツハイマー病診断のための遅延アライメントを有する幾何認識型コアテンションネットワークを提案する。
提案手法のコアとなるマルチパッチ・マルチパッチ(M2M)コントラスト損失関数は,表現の相違を定量化し,低減する。
提案手法の有効性を確認し,ADバイオマーカーとしてfMRIとsMRIの対応性を強調した。
論文 参考訳(メタデータ) (2025-04-23T15:18:55Z) - Unpaired Volumetric Harmonization of Brain MRI with Conditional Latent Diffusion [13.563413478006954]
条件付き潜時拡散(HCLD)による新しい3次元MRI高調波化フレームワークを提案する。
一般化可能な3Dオートエンコーダを備え、4Dラテント空間を通じてMRIを符号化しデコードする。
HCLDは、潜伏分布を学習し、ターゲット画像スタイルで条件付きで、ソースMRIから解剖学的情報と調和したMRIを生成する。
論文 参考訳(メタデータ) (2024-08-18T00:13:48Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - UniBrain: Universal Brain MRI Diagnosis with Hierarchical
Knowledge-enhanced Pre-training [66.16134293168535]
我々はUniBrainと呼ばれるユニバーサル脳MRI診断のための階層的知識強化事前訓練フレームワークを提案する。
具体的には、UniBrainは、定期的な診断から24,770のイメージレポートペアの大規模なデータセットを活用する。
論文 参考訳(メタデータ) (2023-09-13T09:22:49Z) - Patched Diffusion Models for Unsupervised Anomaly Detection in Brain MRI [55.78588835407174]
本稿では,正常脳解剖のパッチベース推定法として拡散モデルの生成タスクを再構築する手法を提案する。
腫瘍と多発性硬化症について検討し,既存のベースラインと比較して25.1%の改善がみられた。
論文 参考訳(メタデータ) (2023-03-07T09:40:22Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Automated SSIM Regression for Detection and Quantification of Motion
Artefacts in Brain MR Images [54.739076152240024]
磁気共鳴脳画像における運動アーチファクトは重要な問題である。
MR画像の画質評価は,臨床診断に先立って基本的である。
構造類似度指数(SSIM)回帰に基づく自動画像品質評価法が提案されている。
論文 参考訳(メタデータ) (2022-06-14T10:16:54Z) - Automatic Classification of Alzheimer's Disease using brain MRI data and
deep Convolutional Neural Networks [0.0]
アルツハイマー病(英: Alzheimer's disease、AD)は、世界の公衆衛生問題の一つ。
本稿では,脳MRI画像とセグメント画像を用いたディープラーニングアーキテクチャの構築について検討する。
論文 参考訳(メタデータ) (2022-03-31T20:15:51Z) - Longitudinal Self-Supervised Learning [13.094393751939837]
グラウンド・トゥルース・ラベルは神経科学においてしばしば欠落しているか高価である。
本稿では,MRIと潜在画像表現の関連因子間の多変量写像を定式化することにより,歪みの新たな定義を提案する。
我々は、画像表現から脳年齢を乱すコサインロスを伴う標準的な自動符号化構造を用いて、LSSL(Longitudinal Self-Supervised Learning)というモデルを実装した。
論文 参考訳(メタデータ) (2020-06-12T03:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。