論文の概要: MedVision: Dataset and Benchmark for Quantitative Medical Image Analysis
- arxiv url: http://arxiv.org/abs/2511.18676v1
- Date: Mon, 24 Nov 2025 01:26:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.966198
- Title: MedVision: Dataset and Benchmark for Quantitative Medical Image Analysis
- Title(参考訳): MedVision: 定量的医用画像解析のためのデータセットとベンチマーク
- Authors: Yongcheng Yao, Yongshuo Zong, Raman Dutt, Yongxin Yang, Sotirios A Tsaftaris, Timothy Hospedales,
- Abstract要約: 医用画像解析における視覚言語モデル(VLM)の評価と改善を目的としたデータセットとベンチマークであるMedVisionを紹介する。
MedVisionは、さまざまな解剖学とモダリティをカバーする22のパブリックデータセットにまたがっており、30.8万のイメージアノテーションペアがある。
我々は,(1)解剖学的構造と異常の検出,(2)腫瘍/病変(T/L)の大きさ推定,(3)角度/距離(A/D)測定の3つの代表的な定量的タスクに着目した。
MedVisionの教師付き微調整により、検出、T/L推定、A/D計測における性能を著しく向上する。
- 参考スコア(独自算出の注目度): 29.537915199171547
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current vision-language models (VLMs) in medicine are primarily designed for categorical question answering (e.g., "Is this normal or abnormal?") or qualitative descriptive tasks. However, clinical decision-making often relies on quantitative assessments, such as measuring the size of a tumor or the angle of a joint, from which physicians draw their own diagnostic conclusions. This quantitative reasoning capability remains underexplored and poorly supported in existing VLMs. In this work, we introduce MedVision, a large-scale dataset and benchmark specifically designed to evaluate and improve VLMs on quantitative medical image analysis. MedVision spans 22 public datasets covering diverse anatomies and modalities, with 30.8 million image-annotation pairs. We focus on three representative quantitative tasks: (1) detection of anatomical structures and abnormalities, (2) tumor/lesion (T/L) size estimation, and (3) angle/distance (A/D) measurement. Our benchmarks show that current off-the-shelf VLMs perform poorly on these tasks. However, with supervised fine-tuning on MedVision, we significantly enhance their performance across detection, T/L estimation, and A/D measurement, demonstrating reduced error rates and improved precision. This work provides a foundation for developing VLMs with robust quantitative reasoning capabilities in medical imaging. Code and data are available at https://medvision-vlm.github.io.
- Abstract(参考訳): 医学における現在の視覚言語モデル(VLM)は、主にカテゴリー的質問応答(例:「これは正常か異常か」)や定性的な記述的タスクのために設計されている。
しかし、臨床的な意思決定は、しばしば、腫瘍の大きさや関節の角度を測定するなど、医師が独自の診断結論を導き出す定量的な評価に頼っている。
この量的推論能力は、既存のVLMでは未探索であり、サポートが不十分なままである。
本稿では,定量的な医用画像解析におけるVLMの評価と改善を目的とした大規模データセットとベンチマークであるMedVisionを紹介する。
MedVisionは、さまざまな解剖学とモダリティをカバーする22のパブリックデータセットにまたがっており、30.8万のイメージアノテーションペアがある。
我々は,(1)解剖学的構造と異常の検出,(2)腫瘍/病変(T/L)の大きさ推定,(3)角度/距離(A/D)測定の3つの代表的な定量的タスクに着目した。
我々のベンチマークでは、現在の市販のVLMはこれらのタスクで性能が悪いことが示されています。
しかし、MedVisionの教師付き微調整により、検出、T/L推定、A/D測定における性能が著しく向上し、誤り率の低減と精度の向上が図られた。
この研究は、医用画像における堅牢な定量的推論機能を備えたVLMの開発基盤を提供する。
コードとデータはhttps://medvision-vlm.github.io.comで公開されている。
関連論文リスト
- TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - Data-Efficient Fine-Tuning of Vision-Language Models for Diagnosis of Alzheimer's Disease [3.46857682956989]
医用視覚言語モデル(Med-VLMs)は、レポート生成や視覚的質問応答といったタスクにおいて印象的な結果を示している。
既存のモデルの多くは、スクラッチからトレーニングするか、大規模な2D画像テキストペアで微調整されるのが一般的である。
我々は3次元MRIに3次元CTベースのMed-VLMを適用するためのデータ効率の良い微調整パイプラインを提案する。
論文 参考訳(メタデータ) (2025-09-09T11:36:21Z) - Does DINOv3 Set a New Medical Vision Standard? [67.33543059306938]
本報告は、DINOv3が、ドメイン固有の事前トレーニングなしで、医用視覚タスクのための強力な統合エンコーダとして機能するかどうかを考察する。
我々はDINOv3を2D/3D分類やセグメンテーションを含む一般的な医療ビジョンタスクでベンチマークした。
注目すべきは、いくつかのタスクでBiomedCLIPやCT-Netといった医療固有の基礎モデルよりも優れていることだ。
論文 参考訳(メタデータ) (2025-09-08T09:28:57Z) - How Far Have Medical Vision-Language Models Come? A Comprehensive Benchmarking Study [16.84832179579428]
VLM(Vision-Language Models)は、Webスケールのコーパスを訓練し、自然画像のタスクに優れ、医療に利用されつつある。
本稿では,8つのベンチマークを用いて,オープンソース汎用および医療専門のVLMの総合評価を行う。
まず、大規模な汎用モデルは、いくつかのベンチマークで、すでに医学固有のモデルと一致しているか、あるいは超えている。
第二に、推論のパフォーマンスは理解よりも一貫して低く、安全な意思決定支援にとって重要な障壁を強調します。
論文 参考訳(メタデータ) (2025-07-15T11:12:39Z) - Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering [8.185551155349241]
Vision-Language Models (VLMs) は様々な2次元視覚タスクにおいて有望であるが、3次元臨床診断への準備が整っていない。
腹部腫瘍を対象とする診断的視覚質問応答ベンチマークであるDeepTumorVQAについて検討した。
17の公開データセットから9,262のCTボリューム(3.7Mスライス)と、認識、計測、視覚的推論、医学的推論の4つのカテゴリにまたがる395Kの専門家レベルの質問で構成されている。
論文 参考訳(メタデータ) (2025-05-25T00:50:15Z) - Point, Detect, Count: Multi-Task Medical Image Understanding with Instruction-Tuned Vision-Language Models [3.3091869879941687]
マルチタスク医療画像理解のための微調整視覚言語モデル(VLM)について検討する。
我々は各タスクを視覚言語推論に適した命令ベースのプロンプトに再構成する。
その結果,マルチタスクトレーニングにより堅牢性と精度が向上した。
論文 参考訳(メタデータ) (2025-05-22T13:18:44Z) - EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model [51.66031028717933]
Med-LVLM(Med-LVLM)は、医療において重要な可能性を示す。
現在、知的眼科診断は、(i)データ、(ii)ベンチマーク、(iii)モデルという3つの大きな課題に直面している。
我々は、前述の3つの課題に対処するEyecare Kitを提案する。
論文 参考訳(メタデータ) (2025-04-18T12:09:15Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。