論文の概要: DrVD-Bench: Do Vision-Language Models Reason Like Human Doctors in Medical Image Diagnosis?
- arxiv url: http://arxiv.org/abs/2505.24173v1
- Date: Fri, 30 May 2025 03:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.751669
- Title: DrVD-Bench: Do Vision-Language Models Reason Like Human Doctors in Medical Image Diagnosis?
- Title(参考訳): DrVD-Bench: ヴィジュアル・ランゲージ・モデルは、画像診断の人間医師に似ていますか?
- Authors: Tianhong Zhou, Yin Xu, Yingtao Zhu, Chuxi Xiao, Haiyang Bian, Lei Wei, Xuegong Zhang,
- Abstract要約: 臨床ビジュアル推論のための最初のベンチマークであるDrVD-Benchを提案する。
DrVD-Benchは、ビジュアルエビデンス、推論軌道評価、レポート生成評価の3つのモジュールで構成されている。
本ベンチマークでは,20のタスクタイプ,17の診断カテゴリ,CT,MRI,超音波,X線撮影,病理の5つの画像モダリティについて検討した。
- 参考スコア(独自算出の注目度): 1.1094764204428438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) exhibit strong zero-shot generalization on natural images and show early promise in interpretable medical image analysis. However, existing benchmarks do not systematically evaluate whether these models truly reason like human clinicians or merely imitate superficial patterns. To address this gap, we propose DrVD-Bench, the first multimodal benchmark for clinical visual reasoning. DrVD-Bench consists of three modules: Visual Evidence Comprehension, Reasoning Trajectory Assessment, and Report Generation Evaluation, comprising a total of 7,789 image-question pairs. Our benchmark covers 20 task types, 17 diagnostic categories, and five imaging modalities-CT, MRI, ultrasound, radiography, and pathology. DrVD-Bench is explicitly structured to reflect the clinical reasoning workflow from modality recognition to lesion identification and diagnosis. We benchmark 19 VLMs, including general-purpose and medical-specific, open-source and proprietary models, and observe that performance drops sharply as reasoning complexity increases. While some models begin to exhibit traces of human-like reasoning, they often still rely on shortcut correlations rather than grounded visual understanding. DrVD-Bench offers a rigorous and structured evaluation framework to guide the development of clinically trustworthy VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)は、自然画像に強いゼロショットの一般化を示し、解釈可能な医用画像解析において早期の約束を示す。
しかし、既存のベンチマークでは、これらのモデルが本当に人間の臨床医に似てるのか、単に表面パターンを模倣しているのかを体系的に評価していない。
このギャップに対処するために、臨床視覚的推論のための最初のマルチモーダルベンチマークであるDrVD-Benchを提案する。
DrVD-Benchは、ビジュアルエビデンス理解、推論軌道評価、レポート生成評価の3つのモジュールで構成される。
本ベンチマークでは,20のタスクタイプ,17の診断カテゴリ,CT,MRI,超音波,X線撮影,病理の5つの画像モダリティについて検討した。
DrVD-Benchは、モダリティ認識から病変の同定と診断に至るまで、臨床推論のワークフローを反映するように明示的に構成されている。
我々は、汎用および医療に特化したオープンソースおよびプロプライエタリなモデルを含む19のVLMをベンチマークし、複雑性が増大するにつれて性能が急激に低下するのを観察する。
人間のような推論の痕跡を示すモデルもあるが、視覚的な理解を基礎にするのではなく、短い相関に頼っていることが多い。
DrVD-Benchは、臨床的に信頼できるVLMの開発を導くための厳格で構造化された評価フレームワークを提供する。
関連論文リスト
- MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning [24.9872402922819]
既存の医療用VQAベンチマークは、主にシングルイメージ分析に焦点を当てている。
医療用VQAにおけるマルチイメージ推論を明示的に評価する最初のベンチマークであるMedFrameQAを紹介する。
論文 参考訳(メタデータ) (2025-05-22T17:46:11Z) - Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然画像の推論において顕著な進歩を遂げているが、医療画像におけるその可能性はまだ探索されていない。
医用推論における一般化と信頼性の向上を目的とした強化学習(RL)による視覚言語モデルであるMed-R1を提案する。
我々はMed-R1を8つの異なる医用画像モダリティで評価した。
論文 参考訳(メタデータ) (2025-03-18T06:12:38Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - Revamping AI Models in Dermatology: Overcoming Critical Challenges for
Enhanced Skin Lesion Diagnosis [8.430482797862926]
我々は、分散-textbfClinical TriageモデルのオールインワンのtextbfHierarchical-textbfOutを示す。
臨床画像では,階層的予測,アウト・オブ・ディストリビューション画像の警告,皮膚内視鏡の推奨の3つの出力を生成する。
我々の汎用モデルは、病変診断のための貴重な意思決定支援を提供し、医療AI応用の有望な先例を定めている。
論文 参考訳(メタデータ) (2023-11-02T06:08:49Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Act Like a Radiologist: Towards Reliable Multi-view Correspondence
Reasoning for Mammogram Mass Detection [49.14070210387509]
マンモグラム質量検出のための解剖学的グラフ畳み込みネットワーク(AGN)を提案する。
AGNはマンモグラムの質量検出用に調整されており、既存の検出手法を多視点推論能力で実現している。
2つの標準ベンチマークの実験によると、AGNは最先端のパフォーマンスを大幅に上回っている。
論文 参考訳(メタデータ) (2021-05-21T06:48:34Z) - Malignancy Prediction and Lesion Identification from Clinical
Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。
まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文 参考訳(メタデータ) (2021-04-02T20:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。