論文の概要: VisTA: Vision-Text Alignment Model with Contrastive Learning using Multimodal Data for Evidence-Driven, Reliable, and Explainable Alzheimer's Disease Diagnosis
- arxiv url: http://arxiv.org/abs/2502.01535v1
- Date: Mon, 03 Feb 2025 17:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:02:37.180481
- Title: VisTA: Vision-Text Alignment Model with Contrastive Learning using Multimodal Data for Evidence-Driven, Reliable, and Explainable Alzheimer's Disease Diagnosis
- Title(参考訳): VisTA:マルチモーダルデータを用いた視覚テキストアライメントモデルによるアルツハイマー病診断
- Authors: Duy-Cat Can, Linh D. Dang, Quang-Huy Tang, Dang Minh Ly, Huong Ha, Guillaume Blanc, Oliver Y. Chén, Binh T. Nguyen,
- Abstract要約: コントラスト学習を支援するマルチモーダル言語ビジョンモデルVisTAを提案する。
VisTAは4つのアウトプットを生成する:予測異常タイプ、参照ケースと類似性、エビデンス駆動の説明、そして最終AD診断である。
ベースライン前訓練に使用した1500万枚の画像と比較して、VisTAは微細調整に170個のサンプルしか使用せず、異常検索と認知症予測の大幅な改善を得た。
- 参考スコア(独自算出の注目度): 5.5541801541090825
- License:
- Abstract: Objective: Assessing Alzheimer's disease (AD) using high-dimensional radiology images is clinically important but challenging. Although Artificial Intelligence (AI) has advanced AD diagnosis, it remains unclear how to design AI models embracing predictability and explainability. Here, we propose VisTA, a multimodal language-vision model assisted by contrastive learning, to optimize disease prediction and evidence-based, interpretable explanations for clinical decision-making. Methods: We developed VisTA (Vision-Text Alignment Model) for AD diagnosis. Architecturally, we built VisTA from BiomedCLIP and fine-tuned it using contrastive learning to align images with verified abnormalities and their descriptions. To train VisTA, we used a constructed reference dataset containing images, abnormality types, and descriptions verified by medical experts. VisTA produces four outputs: predicted abnormality type, similarity to reference cases, evidence-driven explanation, and final AD diagnoses. To illustrate VisTA's efficacy, we reported accuracy metrics for abnormality retrieval and dementia prediction. To demonstrate VisTA's explainability, we compared its explanations with human experts' explanations. Results: Compared to 15 million images used for baseline pretraining, VisTA only used 170 samples for fine-tuning and obtained significant improvement in abnormality retrieval and dementia prediction. For abnormality retrieval, VisTA reached 74% accuracy and an AUC of 0.87 (26% and 0.74, respectively, from baseline models). For dementia prediction, VisTA achieved 88% accuracy and an AUC of 0.82 (30% and 0.57, respectively, from baseline models). The generated explanations agreed strongly with human experts' and provided insights into the diagnostic process. Taken together, VisTA optimize prediction, clinical reasoning, and explanation.
- Abstract(参考訳): 目的:高次元放射線画像を用いたアルツハイマー病(AD)の評価は臨床的に重要であるが困難である。
人工知能(AI)のAD診断は進んでいるが、予測可能性と説明可能性を受け入れるAIモデルをどう設計するかは不明だ。
本稿では, コントラスト学習を支援するマルチモーダル言語ビジョンモデルであるVisTAを提案し, 臨床診断のための疾患予測とエビデンスに基づく解釈可能な説明を最適化する。
方法:AD診断のためのVisTA(Vision-Text Alignment Model)を開発した。
アーキテクチャ上は、BiomedCLIPからVisTAを構築し、対照的な学習を用いて微調整を行い、画像の異常とそれらの記述を一致させた。
VisTAのトレーニングには、画像、異常タイプ、医療専門家が検証した記述を含む構築された参照データセットを使用した。
VisTAは4つのアウトプットを生成する:予測異常タイプ、参照ケースと類似性、エビデンス駆動の説明、そして最終AD診断である。
VisTAの有効性を説明するために,異常検索と認知症予測の精度指標を報告した。
VisTAの説明可能性を示すために、その説明と人間の専門家の説明を比較した。
結果: ベースライン前訓練に使用した1500万枚の画像と比較すると, 微調整に170個のサンプルしか使用せず, 異常検索と認知症予測に有意な改善が得られた。
異常検索では、VisTAは74%の精度でAUCは0.87(それぞれ26%と0.74)に達した。
認知症予測では、VisTAは88%の精度でAUCは0.82(それぞれベースラインモデルから30%と0.57)に達した。
生成された説明は人間の専門家と強く一致し、診断プロセスに関する洞察を提供した。
まとめると、VisTAは予測、臨床推論、説明を最適化する。
関連論文リスト
- Self-Explaining Hypergraph Neural Networks for Diagnosis Prediction [45.89562183034469]
既存のディープラーニング診断予測モデルと本質的な解釈性は、過去の診断や病院訪問の度に注意重みを割り当てることが多い。
我々は、パーソナライズされた簡潔で忠実な説明を提供するように設計された、自己説明型ハイパーグラフニューラルネットワークモデルSHyを紹介する。
SHyは高次疾患の相互作用を捉え、パーソナライズされた説明として異なる時間的表現型を抽出する。
論文 参考訳(メタデータ) (2025-02-15T06:33:02Z) - Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding [17.783231335173486]
解剖学的CT画像解釈のための細粒度視覚言語モデル(fVLM)を提案する。
しかし、微粒なアライメントは、かなり偽陰性な課題に直面している。
今回,69,086例のCT画像と報告データをもとに,これまでで最大のCTデータセットを収集した。
論文 参考訳(メタデータ) (2025-01-24T14:50:48Z) - Explainable AI for Autism Diagnosis: Identifying Critical Brain Regions Using fMRI Data [0.29687381456163997]
自閉症スペクトラム障害(ASD)の早期診断と介入は、自閉症者の生活の質を著しく向上させることが示されている。
ASDの客観的バイオマーカーは診断精度の向上に役立つ。
深層学習(DL)は,医療画像データから疾患や病態を診断する上で,優れた成果を上げている。
本研究の目的は, ASD の精度と解釈性を向上させることであり, ASD を正確に分類できるだけでなく,その動作に関する説明可能な洞察を提供する DL モデルを作成することである。
論文 参考訳(メタデータ) (2024-09-19T23:08:09Z) - Multi-task Learning Approach for Intracranial Hemorrhage Prognosis [0.0]
本稿では,Glasgow Coma Scale と Age の3次元マルチタスク画像モデルを提案する。
提案手法は現状のベースライン画像モデルより優れており,CTスキャンのみを入力として用いた4名の脳神経科医と比較してICH予後に優れていた。
論文 参考訳(メタデータ) (2024-08-16T14:56:17Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - Reconstruction of Patient-Specific Confounders in AI-based Radiologic
Image Interpretation using Generative Pretraining [12.656718786788758]
本稿では,DiffChestと呼ばれる自己条件拡散モデルを提案し,胸部X線画像のデータセット上で訓練する。
DiffChest氏は、患者固有のレベルでの分類を説明し、モデルを誤解させる可能性のある要因を視覚化する。
本研究は,医用画像分類における拡散モデルに基づく事前訓練の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-09-29T10:38:08Z) - Learn-Explain-Reinforce: Counterfactual Reasoning and Its Guidance to
Reinforce an Alzheimer's Disease Diagnosis Model [1.6287500717172143]
本稿では、診断モデル学習、視覚的説明生成、訓練された診断モデル強化を統一する新しいフレームワークを提案する。
視覚的説明のために,対象ラベルとして識別される入力サンプルを変換する反ファクトマップを生成する。
論文 参考訳(メタデータ) (2021-08-21T07:29:13Z) - IA-GCN: Interpretable Attention based Graph Convolutional Network for
Disease prediction [47.999621481852266]
タスクに対する入力特徴の臨床的関連性を解釈する,解釈可能なグラフ学習モデルを提案する。
臨床シナリオでは、そのようなモデルは、臨床専門家が診断および治療計画のためのより良い意思決定を支援することができる。
本研究では,Tadpoleの平均精度が3.2%,UKBBジェンダーが1.6%,UKBB年齢予測タスクが2%と,比較方法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2021-03-29T13:04:02Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。