Fugu-MT 論文翻訳(概要): VisTA: Vision-Text Alignment Model with Contrastive Learning using Multimodal Data for Evidence-Driven, Reliable, and Explainable Alzheimer's Disease Diagnosis

論文の概要: VisTA: Vision-Text Alignment Model with Contrastive Learning using Multimodal Data for Evidence-Driven, Reliable, and Explainable Alzheimer's Disease Diagnosis

arxiv url: http://arxiv.org/abs/2502.01535v1
Date: Mon, 03 Feb 2025 17:15:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.171508
Title: VisTA: Vision-Text Alignment Model with Contrastive Learning using Multimodal Data for Evidence-Driven, Reliable, and Explainable Alzheimer's Disease Diagnosis
Title（参考訳）: VisTA:マルチモーダルデータを用いた視覚テキストアライメントモデルによるアルツハイマー病診断
Authors: Duy-Cat Can, Linh D. Dang, Quang-Huy Tang, Dang Minh Ly, Huong Ha, Guillaume Blanc, Oliver Y. Chén, Binh T. Nguyen,
Abstract要約: コントラスト学習を支援するマルチモーダル言語ビジョンモデルVisTAを提案する。 VisTAは4つのアウトプットを生成する:予測異常タイプ、参照ケースと類似性、エビデンス駆動の説明、そして最終AD診断である。ベースライン前訓練に使用した1500万枚の画像と比較して、VisTAは微細調整に170個のサンプルしか使用せず、異常検索と認知症予測の大幅な改善を得た。
参考スコア（独自算出の注目度）: 5.5541801541090825
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Objective: Assessing Alzheimer's disease (AD) using high-dimensional radiology images is clinically important but challenging. Although Artificial Intelligence (AI) has advanced AD diagnosis, it remains unclear how to design AI models embracing predictability and explainability. Here, we propose VisTA, a multimodal language-vision model assisted by contrastive learning, to optimize disease prediction and evidence-based, interpretable explanations for clinical decision-making. Methods: We developed VisTA (Vision-Text Alignment Model) for AD diagnosis. Architecturally, we built VisTA from BiomedCLIP and fine-tuned it using contrastive learning to align images with verified abnormalities and their descriptions. To train VisTA, we used a constructed reference dataset containing images, abnormality types, and descriptions verified by medical experts. VisTA produces four outputs: predicted abnormality type, similarity to reference cases, evidence-driven explanation, and final AD diagnoses. To illustrate VisTA's efficacy, we reported accuracy metrics for abnormality retrieval and dementia prediction. To demonstrate VisTA's explainability, we compared its explanations with human experts' explanations. Results: Compared to 15 million images used for baseline pretraining, VisTA only used 170 samples for fine-tuning and obtained significant improvement in abnormality retrieval and dementia prediction. For abnormality retrieval, VisTA reached 74% accuracy and an AUC of 0.87 (26% and 0.74, respectively, from baseline models). For dementia prediction, VisTA achieved 88% accuracy and an AUC of 0.82 (30% and 0.57, respectively, from baseline models). The generated explanations agreed strongly with human experts' and provided insights into the diagnostic process. Taken together, VisTA optimize prediction, clinical reasoning, and explanation.
Abstract（参考訳）: 目的:高次元放射線画像を用いたアルツハイマー病(AD)の評価は臨床的に重要であるが困難である。人工知能(AI)のAD診断は進んでいるが、予測可能性と説明可能性を受け入れるAIモデルをどう設計するかは不明だ。本稿では, コントラスト学習を支援するマルチモーダル言語ビジョンモデルであるVisTAを提案し, 臨床診断のための疾患予測とエビデンスに基づく解釈可能な説明を最適化する。方法:AD診断のためのVisTA(Vision-Text Alignment Model)を開発した。アーキテクチャ上は、BiomedCLIPからVisTAを構築し、対照的な学習を用いて微調整を行い、画像の異常とそれらの記述を一致させた。 VisTAのトレーニングには、画像、異常タイプ、医療専門家が検証した記述を含む構築された参照データセットを使用した。 VisTAは4つのアウトプットを生成する:予測異常タイプ、参照ケースと類似性、エビデンス駆動の説明、そして最終AD診断である。 VisTAの有効性を説明するために,異常検索と認知症予測の精度指標を報告した。 VisTAの説明可能性を示すために、その説明と人間の専門家の説明を比較した。結果: ベースライン前訓練に使用した1500万枚の画像と比較すると, 微調整に170個のサンプルしか使用せず, 異常検索と認知症予測に有意な改善が得られた。異常検索では、VisTAは74%の精度でAUCは0.87(それぞれ26%と0.74)に達した。認知症予測では、VisTAは88%の精度でAUCは0.82(それぞれベースラインモデルから30%と0.57)に達した。生成された説明は人間の専門家と強く一致し、診断プロセスに関する洞察を提供した。まとめると、VisTAは予測、臨床推論、説明を最適化する。

関連論文リスト

Minimum Data, Maximum Impact: 20 annotated samples for explainable lung nodule classification [0.0]
放射線学者は、確立された診断基準として形状やテクスチャなどの属性を使用し、AI意思決定でそれらを反映する。このようなモデルの採用は、これらの属性を付加した大規模医療画像データセットの不足によって制限される。この研究は、データセットの制限を克服する合成データの可能性を強調し、医療画像解析における説明可能なモデルの適用性を高める。
論文参考訳（メタデータ） (2025-08-01T13:54:34Z)
Hybrid Vision Transformer-Mamba Framework for Autism Diagnosis via Eye-Tracking Analysis [2.481802259298367]
本研究では,視覚変換器(ViT)とビジョン・マンバを組み合わせたハイブリッドなディープラーニングフレームワークを提案する。このモデルは、注意に基づく融合を用いて視覚、音声、顔の手がかりを統合し、空間的、時間的両方のダイナミクスをキャプチャする。 Saliency4ASDデータセットでテストした結果、提案されたViT-Mambaモデルは既存の手法より優れており、精度0.96、スコア0.95F1、感度0.97、特異度0.94を達成している。
論文参考訳（メタデータ） (2025-06-07T18:27:24Z)
Fine-tuning Vision Language Models with Graph-based Knowledge for Explainable Medical Image Analysis [44.38638601819933]
現在の糖尿病網膜症(DR)のステージングモデルはほとんど解釈できない。本稿では,グラフ表現学習を視覚言語モデル(VLM)と統合し,説明可能なDR診断を実現する手法を提案する。
論文参考訳（メタデータ） (2025-03-12T20:19:07Z)
Weakly Supervised Pixel-Level Annotation with Visual Interpretability [1.5035157506526693]
本稿では,アンサンブル学習,視覚的説明可能性,不確実性定量化を統合した自動説明可能なアノテーションシステムを提案する。提案手法では,事前学習した3つのディープラーニングモデル – ResNet50,EfficientNet,DenseNet – と,視覚的説明のためのXGrad-CAM,不確実性定量化のためのMonte Carlo Dropoutを組み合わせた。実験の結果,本手法はベースラインモデルより優れ,TBX11Kでは93.04%,Fireデータセットでは96.4%の精度が得られた。
論文参考訳（メタデータ） (2025-02-25T04:03:22Z)
Self-Explaining Hypergraph Neural Networks for Diagnosis Prediction [45.89562183034469]
既存のディープラーニング診断予測モデルと本質的な解釈性は、過去の診断や病院訪問の度に注意重みを割り当てることが多い。我々は、パーソナライズされた簡潔で忠実な説明を提供するように設計された、自己説明型ハイパーグラフニューラルネットワークモデルSHyを紹介する。 SHyは高次疾患の相互作用を捉え、パーソナライズされた説明として異なる時間的表現型を抽出する。
論文参考訳（メタデータ） (2025-02-15T06:33:02Z)
Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding [17.783231335173486]
解剖学的CT画像解釈のための細粒度視覚言語モデル(fVLM)を提案する。しかし、微粒なアライメントは、かなり偽陰性な課題に直面している。今回,69,086例のCT画像と報告データをもとに,これまでで最大のCTデータセットを収集した。
論文参考訳（メタデータ） (2025-01-24T14:50:48Z)
Explainable AI for Autism Diagnosis: Identifying Critical Brain Regions Using fMRI Data [0.29687381456163997]
自閉症スペクトラム障害(ASD)の早期診断と介入は、自閉症者の生活の質を著しく向上させることが示されている。 ASDの客観的バイオマーカーは診断精度の向上に役立つ。深層学習(DL)は,医療画像データから疾患や病態を診断する上で,優れた成果を上げている。本研究の目的は, ASD の精度と解釈性を向上させることであり, ASD を正確に分類できるだけでなく,その動作に関する説明可能な洞察を提供する DL モデルを作成することである。
論文参考訳（メタデータ） (2024-09-19T23:08:09Z)
Multi-task Learning Approach for Intracranial Hemorrhage Prognosis [0.0]
本稿では,Glasgow Coma Scale と Age の3次元マルチタスク画像モデルを提案する。提案手法は現状のベースライン画像モデルより優れており,CTスキャンのみを入力として用いた4名の脳神経科医と比較してICH予後に優れていた。
論文参考訳（メタデータ） (2024-08-16T14:56:17Z)
Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。 iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文参考訳（メタデータ） (2024-07-10T19:17:23Z)
Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework [43.453943987647015]
医学的な視覚言語事前訓練は研究の最前線として現れ、ゼロショットの病理診断を可能にしている。バイオメディカルテキストの複雑なセマンティクスのため、現在の方法では、医学的画像と、非構造化レポートの重要な病理学的所見の整合に苦慮している。これは、大きな言語モデルと医療専門家に相談することで達成される。我々の研究は、近年の手法の精度を最大8.56%まで改善し、17.26%を目に見えるカテゴリーで改善した。
論文参考訳（メタデータ） (2024-03-12T13:18:22Z)
Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文参考訳（メタデータ） (2023-11-18T14:37:53Z)
Reconstruction of Patient-Specific Confounders in AI-based Radiologic Image Interpretation using Generative Pretraining [12.656718786788758]
本稿では,DiffChestと呼ばれる自己条件拡散モデルを提案し,胸部X線画像のデータセット上で訓練する。 DiffChest氏は、患者固有のレベルでの分類を説明し、モデルを誤解させる可能性のある要因を視覚化する。本研究は,医用画像分類における拡散モデルに基づく事前訓練の可能性を明らかにするものである。
論文参考訳（メタデータ） (2023-09-29T10:38:08Z)
IA-GCN: Interpretable Attention based Graph Convolutional Network for Disease prediction [47.999621481852266]
タスクに対する入力特徴の臨床的関連性を解釈する,解釈可能なグラフ学習モデルを提案する。臨床シナリオでは、そのようなモデルは、臨床専門家が診断および治療計画のためのより良い意思決定を支援することができる。本研究では,Tadpoleの平均精度が3.2%,UKBBジェンダーが1.6%,UKBB年齢予測タスクが2%と,比較方法と比較して優れた性能を示した。
論文参考訳（メタデータ） (2021-03-29T13:04:02Z)
Variational Knowledge Distillation for Disease Classification in Chest X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文参考訳（メタデータ） (2021-03-19T14:13:56Z)
Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。共通情報と相補情報の両方を敵意で抽出することを目的としている。特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文参考訳（メタデータ） (2021-02-15T18:46:44Z)
UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。 UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。 UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文参考訳（メタデータ） (2020-10-22T02:28:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。