論文の概要: Towards Clinically Interpretable Ophthalmic VQA via Spatially-Grounded Lesion Evidence
- arxiv url: http://arxiv.org/abs/2605.22414v1
- Date: Thu, 21 May 2026 12:37:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.256407
- Title: Towards Clinically Interpretable Ophthalmic VQA via Spatially-Grounded Lesion Evidence
- Title(参考訳): 臨床的に解釈可能な眼内VQAに向けて : 空間的周囲病変の証拠を用いて
- Authors: Xingyue Wang, Bo Liu, Meng Wang, Zhixuan Zhang, Chengcheng Zhu, Huazhu Fu, Jiang Liu,
- Abstract要約: 今回我々はFundusGroundを紹介した。これは臨床的に解釈可能な眼科用VQAの空間的根拠を用いた新しいベンチマークである。
この構造された病変の証拠に基づいて、72,706の質問が4つのフォーマットにまたがって生成される。
実験により、病変レベルの視覚的エビデンスを組み込むことで、モデルの性能と透明性が一貫して向上することが示された。
- 参考スコア(独自算出の注目度): 51.57735743553791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) holds great promise for clinical support, particularly in ophthalmology, where retinal fundus photography is essential for diagnosis. However, ophthalmic VQA benchmarks primarily emphasize answer accuracy, neglecting the explicit visual evidence necessary for clinical interpretability. In this work, we introduce FundusGround, a new benchmark for clinically interpretable ophthalmic VQA with spatially-grounded lesion evidence. Specifically, we propose a three-stage pipeline that collects 10,719 fundus images with 15,595 image-level meticulously annotated lesions. To ensure anatomical consistency and clinical validity, all lesions are spatially localized using the Early Treatment Diabetic Retinopathy Study (ETDRS) grid, enabling standardized mapping to nine clinically meaningful retinal regions. Built upon this structured lesion evidence, 72,706 questions are then generated spanning four formats: open-ended, closed-ended, single-choice, and multiple-choice. We further benchmark multiple general- and medical- large vision-language models using dual metrics for answer accuracy and lesion-level reasoning. The experiments demonstrate that incorporating lesion-level visual evidence consistently improves model performance and transparency, highlighting the necessity of explicit spatial grounding for reliable and explainable ophthalmic VQA.
- Abstract(参考訳): VQA(Visual Question Answering)は、特に眼科領域において、網膜底部撮影が診断に欠かせない臨床支援に大いに貢献する。
しかし、眼科VQAベンチマークは主に答えの正確さを強調し、臨床解釈に必要となる明確な視覚的証拠を無視している。
本研究は,眼科用VQAの臨床的解釈のための新しいベンチマークであるFundusGroundを紹介する。
具体的には,10,719基の画像と15,595の画像レベルの細かな注釈付き病変を収集する3段階パイプラインを提案する。
解剖学的整合性と臨床的妥当性を確保するため、全ての病変は早期糖尿病網膜症研究(ETDRS)グリッドを用いて空間的に局在し、9つの臨床的に有意な網膜領域へのマッピングを可能にする。
この構造された病変の証拠に基づいて、72,706の質問が、オープンエンド、クローズドエンド、シングルチョイス、マルチチョイスの4つのフォーマットで生成される。
さらに、回答精度と病変レベルの推論のための2つの指標を用いて、複数の一般および医療大規模視覚言語モデルをベンチマークする。
実験により、病変レベルの視覚的エビデンスを組み込むことは、モデルの性能と透明性を一貫して改善し、信頼性と説明可能な眼底VQAのための明示的な空間的接地の必要性を強調した。
関連論文リスト
- Med-StepBench: A Hierarchical Reasoning Framework for Evaluating Hallucinations in Medical Vision-Language Models [8.20487574753681]
既存の幻覚ベンチマークは、主に1ショットの診断質問を伴う2Dイメージングに焦点を当てている。
我々は3DオンコロジーPET/CTにおける段階的幻覚検出のための最初の大規模ベンチマークであるMed-StepBenchを紹介する。
論文 参考訳(メタデータ) (2026-05-11T05:26:59Z) - Divide-then-Diagnose: Weaving Clinician-Inspired Contexts for Ultra-Long Capsule Endoscopy Videos [83.01543151239254]
我々は、診断駆動型CEビデオ要約という新しいタスクを定義する。
VideoCAPは、診断駆動アノテーションを備えた最初のCEデータセットである。
DiCEはクリニックにインスパイアされたフレームワークで、標準的なCE読み込みワークフローを反映している。
論文 参考訳(メタデータ) (2026-04-23T16:07:51Z) - Fundus Image-based Glaucoma Screening via Retinal Knowledge-Oriented Dynamic Multi-Level Feature Integration [29.89152706520972]
本稿では,動的マルチスケール特徴学習とドメイン固有網膜前駆体を統合した知識指向緑内障スクリーニングフレームワークを提案する。
動的ウィンドウ機構は、診断情報領域を適応的に識別するために考案された。
知識強化畳み込み注意モジュールは、事前訓練された基礎モデルから抽出された網膜前駆体を組み込んで注意学習を誘導する。
論文 参考訳(メタデータ) (2026-04-14T06:38:42Z) - Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - Synthetic Vasculature and Pathology Enhance Vision-Language Model Reasoning [39.96133625333846]
本稿では,SVR(Synthetic Vasculature Reasoning)について紹介する。
これに基づいて10万対のOCTAイメージ推論データセットであるOCTA-100K-SVRをキュレートする。
実験により,データセット上で訓練された汎用VLMは,実際のOCTA画像に対して89.67%のゼロショットバランスの分類精度が得られることがわかった。
論文 参考訳(メタデータ) (2025-12-11T19:19:39Z) - S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。
データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。
S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文 参考訳(メタデータ) (2025-10-26T15:57:14Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - XDR-LVLM: An Explainable Vision-Language Large Model for Diabetic Retinopathy Diagnosis [0.0]
LVLMを用いたXDR-LVLM(eXplainable Diabetic Retinopathy diagnosis with LVLM)を提案する。
XDR-LVLMは特殊な医療ビジョン、LVLMコアを統合し、マルチタスク・プロンプトエンジニアリングとマルチステージファインチューニングを採用している。
最先端のパフォーマンスを実現し、バランスド精度は84.55%、F1スコアは79.92%、概念検出には優れた結果が得られる。
論文 参考訳(メタデータ) (2025-08-21T02:14:46Z) - DrVD-Bench: Do Vision-Language Models Reason Like Human Doctors in Medical Image Diagnosis? [1.1094764204428438]
臨床ビジュアル推論のための最初のベンチマークであるDrVD-Benchを提案する。
DrVD-Benchは、ビジュアルエビデンス、推論軌道評価、レポート生成評価の3つのモジュールで構成されている。
本ベンチマークでは,20のタスクタイプ,17の診断カテゴリ,CT,MRI,超音波,X線撮影,病理の5つの画像モダリティについて検討した。
論文 参考訳(メタデータ) (2025-05-30T03:33:25Z) - Assessing glaucoma in retinal fundus photographs using Deep Feature
Consistent Variational Autoencoders [63.391402501241195]
緑内障は症状が重くなるまで無症状のままでいるため、検出が困難である。
緑内障の早期診断は機能的,構造的,臨床的評価に基づいて行われることが多い。
ディープラーニング手法はこのジレンマを、マーカー識別段階をバイパスし、ハイレベルな情報を分析してデータを分類することで部分的に解決している。
論文 参考訳(メタデータ) (2021-10-04T16:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。