論文の概要: Synthetic Vasculature and Pathology Enhance Vision-Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2512.11060v1
- Date: Thu, 11 Dec 2025 19:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.538923
- Title: Synthetic Vasculature and Pathology Enhance Vision-Language Model Reasoning
- Title(参考訳): 視覚・言語モデル推論による合成血管と病理
- Authors: Chenjun Li, Cheng Wan, Laurin Lux, Alexander Berger, Richard B. Rosen, Martin J. Menten, Johannes C. Paetzold,
- Abstract要約: 本稿では,SVR(Synthetic Vasculature Reasoning)について紹介する。
これに基づいて10万対のOCTAイメージ推論データセットであるOCTA-100K-SVRをキュレートする。
実験により,データセット上で訓練された汎用VLMは,実際のOCTA画像に対して89.67%のゼロショットバランスの分類精度が得られることがわかった。
- 参考スコア(独自算出の注目度): 39.96133625333846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) offer a promising path toward interpretable medical diagnosis by allowing users to ask about clinical explanations alongside predictions and across different modalities. However, training VLMs for detailed reasoning requires large-scale image-text datasets. In many specialized domains, for example in reading Optical Coherence Tomography Angiography (OCTA) images, such precise text with grounded description of pathologies is scarce or even non-existent. To overcome this bottleneck, we introduce Synthetic Vasculature Reasoning (SVR), a framework that controllably synthesizes images and corresponding text, specifically: realistic retinal vasculature with Diabetic Retinopathy (DR) features: capillary dropout, microaneurysms, neovascularization, and tortuosity, while automatically generating granular reasoning texts. Based on this we curate OCTA-100K-SVR, an OCTA image-reasoning dataset with 100,000 pairs. Our experiments show that a general-purpose VLM (Qwen3-VL-8b) trained on the dataset achieves a zero-shot balanced classification accuracy of 89.67% on real OCTA images, outperforming supervised baselines. Through human expert evaluation we also demonstrate that it significantly enhances explanation quality and pathology localization on clinical data.
- Abstract(参考訳): Vision-Language Models (VLM) は、ユーザーが予測と異なるモードで臨床説明をすることができることによって、解釈可能な診断への有望な道を提供する。
しかし、詳細な推論のためにVLMを訓練するには、大規模な画像テキストデータセットが必要である。
光学コヒーレンス・トモグラフィー・アンギオグラフィー(OCTA)画像を読むなど、多くの専門分野において、病状を根拠に記述した正確なテキストは乏しいか、あるいは存在しない。
このボトルネックを克服するために、我々はSVR(Synthetic Vasculature Reasoning)という、画像とそれに対応するテキストを自動的に合成するフレームワークを紹介した。
これに基づいて10万対のOCTAイメージ推論データセットであるOCTA-100K-SVRをキュレートする。
実験の結果,データセット上でトレーニングした汎用VLM(Qwen3-VL-8b)は,実際のOCTA画像に対して89.67%のゼロショットバランスの分類精度を実現し,教師付きベースラインを上回った。
また,ヒトの専門家による評価を通じて,臨床データに対する説明的品質と病理的局在を著しく向上させることを示した。
関連論文リスト
- DeepGI: Explainable Deep Learning for Gastrointestinal Image Classification [0.0]
この研究は、可変照明、ゆらぎのあるカメラアングル、頻繁な画像アーティファクトなど、一般的な内視鏡的課題に直面している。
最高性能のVGG16とMobileNetV2はそれぞれ96.5%の精度を達成した。
このアプローチには、Grad-CAM視覚化による説明可能なAIが含まれており、モデル予測に最も影響を及ぼす画像領域の識別を可能にする。
論文 参考訳(メタデータ) (2025-11-26T22:35:57Z) - MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging [67.74482877175797]
MIRNetは、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。
TongueAtlas-4Kは,22の診断ラベルを付した4,000枚の画像からなるベンチマークである。
論文 参考訳(メタデータ) (2025-11-13T06:30:41Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - Fine-tuning Vision Language Models with Graph-based Knowledge for Explainable Medical Image Analysis [44.0659716298839]
現在の糖尿病網膜症(DR)のステージングモデルはほとんど解釈できない。
本稿では,グラフ表現学習を視覚言語モデル(VLM)と統合し,説明可能なDR診断を実現する手法を提案する。
論文 参考訳(メタデータ) (2025-03-12T20:19:07Z) - RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-01-13T17:55:32Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。