論文の概要: Fine-tuning Vision Language Models with Graph-based Knowledge for Explainable Medical Image Analysis
- arxiv url: http://arxiv.org/abs/2503.09808v1
- Date: Wed, 12 Mar 2025 20:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:54:42.777728
- Title: Fine-tuning Vision Language Models with Graph-based Knowledge for Explainable Medical Image Analysis
- Title(参考訳): 説明可能な医用画像解析のためのグラフベース知識を用いた微調整視覚言語モデル
- Authors: Chenjun Li, Laurin Lux, Alexander H. Berger, Martin J. Menten, Mert R. Sabuncu, Johannes C. Paetzold,
- Abstract要約: 現在の糖尿病網膜症(DR)のステージングモデルはほとんど解釈できない。
本稿では,グラフ表現学習を視覚言語モデル(VLM)と統合し,説明可能なDR診断を実現する手法を提案する。
- 参考スコア(独自算出の注目度): 44.38638601819933
- License:
- Abstract: Accurate staging of Diabetic Retinopathy (DR) is essential for guiding timely interventions and preventing vision loss. However, current staging models are hardly interpretable, and most public datasets contain no clinical reasoning or interpretation beyond image-level labels. In this paper, we present a novel method that integrates graph representation learning with vision-language models (VLMs) to deliver explainable DR diagnosis. Our approach leverages optical coherence tomography angiography (OCTA) images by constructing biologically informed graphs that encode key retinal vascular features such as vessel morphology and spatial connectivity. A graph neural network (GNN) then performs DR staging while integrated gradients highlight critical nodes and edges and their individual features that drive the classification decisions. We collect this graph-based knowledge which attributes the model's prediction to physiological structures and their characteristics. We then transform it into textual descriptions for VLMs. We perform instruction-tuning with these textual descriptions and the corresponding image to train a student VLM. This final agent can classify the disease and explain its decision in a human interpretable way solely based on a single image input. Experimental evaluations on both proprietary and public datasets demonstrate that our method not only improves classification accuracy but also offers more clinically interpretable results. An expert study further demonstrates that our method provides more accurate diagnostic explanations and paves the way for precise localization of pathologies in OCTA images.
- Abstract(参考訳): 糖尿病網膜症(DR)の正確なステージングは、時間的介入の誘導と視力喪失の予防に不可欠である。
しかし、現在のステージングモデルはほとんど解釈できず、ほとんどの公開データセットは画像レベルのラベル以外の臨床推論や解釈を含まない。
本稿では,視覚言語モデル(VLM)とグラフ表現学習を統合し,説明可能なDR診断を実現する新しい手法を提案する。
血管形態や空間接続性などの重要な網膜血管特徴をコードする生体情報グラフを構築することにより,OCTA画像の光学的コヒーレンストモグラフィーを応用した。
グラフニューラルネットワーク(GNN)はDRステージングを実行し、統合された勾配は重要なノードとエッジと、分類決定を駆動する個々の特徴を強調します。
このグラフに基づく知識は、モデルの予測を生理構造とその特性に関連付ける。
次に、VLMのテキスト記述に変換する。
我々は、これらのテキスト記述とそれに対応する画像を用いて教育訓練を行い、学生のVLMを訓練する。
この最終剤は、単一の画像入力のみに基づいて、病気を分類し、その決定を人間の解釈可能な方法で説明することができる。
本手法は分類精度を向上するだけでなく,臨床的に解釈可能な結果も提供することを示す。
さらに,本手法がより正確な診断法を提供し,OCTA画像における病理組織像の正確な局在化を図っていることを,専門家による研究により明らかにした。
関連論文リスト
- Learning Generalized Medical Image Representations through Image-Graph Contrastive Pretraining [11.520404630575749]
胸部X線と構造化レポート知識グラフを組み合わせた画像グラフコントラスト学習フレームワークを開発した。
提案手法は,リレーショナルグラフ畳み込みネットワークとトランスフォーマーアテンションを介して,非連結グラフ成分を一意に符号化する。
論文 参考訳(メタデータ) (2024-05-15T12:27:38Z) - Semi-Supervised Graph Representation Learning with Human-centric
Explanation for Predicting Fatty Liver Disease [2.992602379681373]
本研究では,半教師付き学習フレームワークにおけるグラフ表現学習の可能性について検討する。
本手法は,健康診断データからリスクパターンを識別する対象類似性グラフを構築する。
論文 参考訳(メタデータ) (2024-03-05T08:59:45Z) - Classification of developmental and brain disorders via graph
convolutional aggregation [6.6356049194991815]
本稿では,グラフサンプリングにおける集約を利用したアグリゲータ正規化グラフ畳み込みネットワークを提案する。
提案モデルは,画像特徴と非画像特徴の両方をグラフノードとエッジに組み込むことで,識別グラフノード表現を学習する。
我々は、自閉症脳画像データ交換(ABIDE)とアルツハイマー病神経イメージングイニシアチブ(ADNI)という2つの大きなデータセット上の最近のベースライン手法と比較して、我々のモデルをベンチマークした。
論文 参考訳(メタデータ) (2023-11-13T14:36:29Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Multimodal brain age estimation using interpretable adaptive
population-graph learning [58.99653132076496]
下流タスクに最適化された人口グラフ構造を学習するフレームワークを提案する。
注意機構は、画像と非画像の特徴のセットに重みを割り当てる。
グラフ構築において最も重要な注意重みを可視化することにより、グラフの解釈可能性を高める。
論文 参考訳(メタデータ) (2023-07-10T15:35:31Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - Pixel-Level Explanation of Multiple Instance Learning Models in
Biomedical Single Cell Images [52.527733226555206]
複数のインスタンス学習モデルを説明するための4つの属性法について検討する。
急性骨髄性白血病の2つのデータセットと100万以上の単細胞画像について検討した。
我々は、属性マップと医療専門家の注釈を比較し、モデルの意思決定が人間の基準とどのように異なるかを確認する。
論文 参考訳(メタデータ) (2023-03-15T14:00:11Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Context Matters: Graph-based Self-supervised Representation Learning for
Medical Images [21.23065972218941]
2段階の自己監督型表現学習目標を備えた新しいアプローチを紹介します。
グラフニューラルネットワークを用いて、異なる解剖学的領域間の関係を組み込む。
我々のモデルは、画像中の臨床的に関連のある領域を識別できる。
論文 参考訳(メタデータ) (2020-12-11T16:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。